어떤 랜덤 변수 X가 있을때 그것의 CDF는 uniform distribution을 따른다는 것을 의미한다. 통계계산에서 나오는 uniform distribution으로부터 다양한 분포의 샘플 생성을 가능하게 해주는 변환이다. 이름까지 붙어있는줄은 몰랐으나 최근에 copula를 보다가 이름이 있다는 걸 알게 되어서 정리한다.
1. Statement
\[\begin{aligned}X\sim F, \quad &Y:=F_X(X)\\ \Rightarrow Y&\sim U[0,1] \end{aligned}\]
확률론 관점에서는, 다음과 같이 기술할 수 있다.
\[\begin{aligned} (X, \mathcal{B}, P_X) \underset{F_X}{\rightarrow} (Y, \mathcal{G}, P_Y)\end{aligned}\]
일때,
For all \( G \in \mathcal{G} \), pushforward measure \(P_Y(G)=P_X\circ F_X^{-1}(G)\)가 uniform measure라는 뜻이다. (위키피디아에는 잘못 써져있는 것 같다... 아마도)
2. Proof
\[\begin{aligned}F_Y(y)&=P(Y\leq y)\\&=P(F_X(X)\leq y)\\&=P(X\leq F_X^{-1}(y)\\&=F_X(F^{-1}_X(y))\\&=y\end{aligned}\]
역함수가 잘 정의된다면 위와 같이 증명할 수 있다.
이걸 응용하여 uniform 분포로부터 다양한 분포를 생성할 때에는 이산형 변수에서도 가능하다.
\[\phi(u)=\inf\{x:F_X(x)\geq u\}\]
이렇게 잡으면 \(P(\phi(U)\leq x)=F_X(x), \;\; x\in \mathbb{R}\)이 성립한다. F가 연속이면 \(\phi=F^{-1}_X\)이다. 이것의 증명은 F가 단조증가함수이고 오른쪽 연속임을 이용하여 막 하다보면 된다. 자세한 건 여백이 부족하여 생략한다. (사실 안 부족하다.)
'통계' 카테고리의 다른 글
Generalized Leverage (0) | 2025.06.21 |
---|---|
Copula, 그리고 multiple response regression에 대한 단상 (0) | 2025.06.20 |
Conditional expectation (0) | 2025.04.23 |
Monotone Mapping (0) | 2025.03.25 |
Measure theoretic description of change-of-variables (0) | 2025.01.01 |