본문 바로가기

통계

Probability integral transform

어떤 랜덤 변수 X가 있을때 그것의 CDF는 uniform distribution을 따른다는 것을 의미한다. 통계계산에서 나오는 uniform distribution으로부터 다양한 분포의 샘플 생성을 가능하게 해주는 변환이다. 이름까지 붙어있는줄은 몰랐으나 최근에 copula를 보다가 이름이 있다는 걸 알게 되어서 정리한다.

1. Statement

\[\begin{aligned}X\sim F, \quad &Y:=F_X(X)\\ \Rightarrow Y&\sim U[0,1] \end{aligned}\]

 

확률론 관점에서는, 다음과 같이 기술할 수 있다.

\[\begin{aligned} (X, \mathcal{B}, P_X) \underset{F_X}{\rightarrow} (Y, \mathcal{G}, P_Y)\end{aligned}\]

일때,

For all \( G \in \mathcal{G} \), pushforward measure \(P_Y(G)=P_X\circ F_X^{-1}(G)\)가 uniform measure라는 뜻이다. (위키피디아에는 잘못 써져있는 것 같다... 아마도)

2. Proof

\[\begin{aligned}F_Y(y)&=P(Y\leq y)\\&=P(F_X(X)\leq y)\\&=P(X\leq F_X^{-1}(y)\\&=F_X(F^{-1}_X(y))\\&=y\end{aligned}\]

 

역함수가 잘 정의된다면 위와 같이 증명할 수 있다.

 

이걸 응용하여 uniform 분포로부터 다양한 분포를 생성할 때에는 이산형 변수에서도 가능하다. 

\[\phi(u)=\inf\{x:F_X(x)\geq u\}\]

이렇게 잡으면 \(P(\phi(U)\leq x)=F_X(x), \;\; x\in \mathbb{R}\)이 성립한다. F가 연속이면 \(\phi=F^{-1}_X\)이다. 이것의 증명은 F가 단조증가함수이고 오른쪽 연속임을 이용하여 막 하다보면 된다. 자세한 건 여백이 부족하여 생략한다. (사실 안 부족하다.)

'통계' 카테고리의 다른 글

Generalized Leverage  (0) 2025.06.21
Copula, 그리고 multiple response regression에 대한 단상  (0) 2025.06.20
Conditional expectation  (0) 2025.04.23
Monotone Mapping  (0) 2025.03.25
Measure theoretic description of change-of-variables  (0) 2025.01.01