Leverage란 어떤 관측치가 회귀선에 어느정도 영향을 발휘하였는지를 수치화하는 도구다. 선형회귀에서 등장한다. 디자인 행렬 \(X\)가 있을때,
\[\hat{y}=X(X^{\top}X)^{-1}X^{\top}y,\]
선형회귀의 해는 위와 같다. 여기서 \(X(X^{\top}X)^{-1}X^{\top}\)만을 취해보자. \(i\)번째 데이터가 \(j\)번째 적합값(fitted value, \(\hat{y}\))에 미친 영향은 \([X(X^{\top}X)^{-1}X^{\top}]_{i,j}=x_i^{\top}(X^{\top}X)^{-1}x_j\)이다. 이때 \(i\)번째 데이터가 \(i\)번째 적합값에 미친 영향을 \(i\)번째 leverage라고 한다.
\[h_{ii}=x_i^{\top}(X^{\top}X)^{-1}x_i\]
위의 leverage 정의는 오직 선형회귀에서만 성립한다. 많은 통계학자들이 leverage를 비선형 회귀로 확장하고자 했었고 이를 위해선 leverage의 본질에 대한 탐구가 필요했다. 한 시도로 관측치의 변동에 따른 적합값의 변동(sensitivity)로써 해석하려는 시도가 있었다.
\[h_{ii}=\frac{\partial \hat{y_i}}{\partial y_i}\]
이 해석 혹은 정의는 선형회귀와도 잘 맞는다. 이 직관에 따라 [1]에서는 generalized leverage를 아래와 같이 정의한다.
\[GL(\tilde{\alpha})=\frac{\partial \tilde{Y}}{\partial Y^{\top}}\]
이때 \(\alpha\)는 모델 파라미터이며 틸더는 관측치 \(Y\)에 의해 결정되는 estimator임을 나타낸다. MLE를 썼다고 가정하면 틸더를 햇(\(\hat{\alpha}\))로 표시할 수 있다(중요한 건 아닌 것 같고). 이 정의 또한 선형회귀의 leverage 정의를 포함한다.
대충 이런게 있다는 정도만 알아두자.
References
[1] Wei, B. C., Hu, Y. Q., & Fung, W. K. (1998). Generalized leverage and its applications. Scandinavian Journal of statistics, 25(1), 25-37.
'통계' 카테고리의 다른 글
Gradient과 convolution이 있을 때 equality (0) | 2025.07.01 |
---|---|
Trace technique (1) | 2025.06.24 |
Copula, 그리고 multiple response regression에 대한 단상 (0) | 2025.06.20 |
Probability integral transform (0) | 2025.06.20 |
Conditional expectation (0) | 2025.04.23 |