랜덤 변수 \(X\sim F\)에서 랜덤 표본을 생성하는 한가지 방법으로 역변환법(\(F^{-1}(U), U\sim U[0,1]\)) 을 이용할 수 있다. 만약, 랜덤 변수가 아닌, 랜덤 백터라면 어떻게 역변환법을 이용할 수 있을까? 각 차원에 대해 똑같이 하면 될까? 각 차원 \(X_i\)에 대해 개별적으로 역변환법을 시도한다면 각 차원은 서로 dependency가 없다는 가정을 한 것과 마찬가지이다. 이건 상황이 좋으면 가정이 성립하겠지만 대체로 비현실적이다.
Copula는 랜덤 벡터 \(\boldsymbol{X}=(X_1,\ldots, X_p)\)에 대해서 역변환법을 통해 샘플 생성을 가능하게 해준다. 랜덤 벡터의 각 랜덤 변수들의 cdf \(F_1,\ldots, F_p\)가 있을때 이것들의 joint CDF가 copula이다.
\[\begin{aligned}C(u_1,\ldots,u_p)&=P(U_1\leq u_1,\ldots, U_p\leq u_p)\\(U_1,\ldots,U_p)&=(F_1(X_1),\ldots, F_p(X_p))\end{aligned}\]
그러면 copula \(C\)로부터 샘플 \((u_1,\ldots,u_p)\)를 뽑았을 때 역변환법을 거치면 \(F\)에서의 샘플이 된다.
다차원 랜덤 벡터에 대해 각 차원이 서로 독립적이라는 것은 상당히 강한 가정이라 생각한다. Copula는 이 가정을 빼게 해준다. 따라서 copula는 샘플 생성에 관해서 필수적인 내용이라고 생각된다. 학부 수업에서 copula를 배운적이 없는데 있어야 될 것 같다.
이처럼 일차원에서 다차원으로 가는 건 단순히 독립적인 일차원들의 모임이라고 생각해서는 안된다. 각 차원이 독립적이라는 가정에도 충분히 일리가 있긴 하지만 그렇지 않을 수도 있다.
통계 회귀분석에선 보통 반응변수가 일차원이다. 다차원에 대해서 다루는 건 거의 본적이 없다. 그 이유에 대해 나는 반응변수가 벡터라면 각 차원에 대해 일차원 반응변수의 개별적인 회귀분석을 적용하면 되기 때문이라고 생각했다. 하지만 copula의 예에서 보듯이 반응벡터의 각 차원은 독립적이지 않을 수도 있다. 다차원 반응벡터에 대한 회귀분석은 거의 진행이 안되는 듯 하다. 통계학과 교수님께서도 그런 것 같다고 하셨다. 다차원 반응벡터에 대한 내용은 옛날 통계책에서나 보이고, 현재 시점에서는 잘 찾을 수가 없다. (Seber, G.A.F. and Wild, C.J. Nonlinear Regression의 Multiresponse Nonlinear Models 섹션에서 찾아볼 수 있다.)
(2025-07-15: Khuri의 Matrix Algebra 책에도 Multiresponse 섹션이 있다.)
딥러닝 모델은 반응벡터가 다차원인데 통계의 nonlinear regression식으로 해석하려면 이 다차원성을 필수적으로 고려해야하는 것이 아닌가 생각이 든다. 또한 discrete system에서도 시스템 함수는 다차원 다변수 함수인데 이 시스템 함수를 학습한다고 하면, 이 다차원성을 고려해야한다. 아직 배움이 짧은 관계로 요즘 통계에서는 왜 다차원 반응벡터에 대해 잘 연구하지 않는지 모르겠다. 끝
'통계' 카테고리의 다른 글
Trace technique (1) | 2025.06.24 |
---|---|
Generalized Leverage (0) | 2025.06.21 |
Probability integral transform (0) | 2025.06.20 |
Conditional expectation (0) | 2025.04.23 |
Monotone Mapping (0) | 2025.03.25 |