728x90
반응형

https://datascienceschool.net/view-notebook/56e7a25aad2a4539b3c31eb3eb787a54/

 

Data Science School

Data Science School is an open space!

datascienceschool.net

 

확률변수

데이터 모형의 가장 대표적인 예는 확률변수다. 확률변수의 수학적 정의는 확률이 정의된 표본공간의 모든 표본을 실수인 숫자로 바꾸는 함수다.

ωΩxRω∈Ω→확률변수x∈R

보통은 XX 등의 대문자 알파벳을 사용하여 확률변수를 표기한다. 확률변수에 의해 할당된 실수는 xx와 같이 소문자 알파벳으로 표시한다. 경우에 따라서는 소문자 알파벳으로 확률변수를 표기하는 경우도 있다.

X(ω)=x(xR)X(ω)=x(x∈R)

이산확률변수

플레잉카드에서 나올 수 있는 모든 무늬(suit)의 집합인 표본집합 {,,,}{♠,♡,♢,♣} 내의 모든 표본에 대해 다음과 같이 숫자를 할당하면 1부터 4까지 값을 가지는 확률변수가 된다. 이렇게 확률변수값이 연속적(continuous)이지 않고 떨어져(discrete) 있도록 정의할 수 있으면 이산확률변수(discrete random variable)라고 한다.

X()X()X()X()====1234X(♠)=1X(♡)=2X(♢)=3X(♣)=4

표본공간의 원소의 개수가 무한대인 경우도 이산확률변수가 될 수 있다. 예를 들어 기하 분포(geometric distribution)나 포아송 분포(Poisson distribution) 등은 양의 정수값을 가지는 이산 분포이지만 무한한 개수의 양의 정수가 0이 아닌 확률을 가질 수 있다.

연속확률변수

주사위가 아닌 원반의 각도 문제처럼 연속적이고 무한대의 실수 표본값을 가지는 확률변수를 연속확률변수(continuous random variable)라고 한다. 모든 표본이 실수인 숫자로 변한다면 모든 사건은 구간사건의 조합으로 표시된다. 즉, 확률이 어떻게 할당되었는가를 나타내는 정보인 확률분포를 수학적인 확률분포함수로 나타낼 수 있다는 뜻이다.

확률변수와 데이터

현실적으로는 확률변수를 실수인 데이터를 생성하는 주사위같은 데이터생성기로 생각하면 된다. 다만 확률변수는 확률분포함수라는 간결하고 정확한 수학적 도구를 이용하여 확률이 정의되어 있다는 점이 주사위와 다른 점이다.

 

그림 17.3 : 확률변수

데이터 모형에 따르면 우리가 가진 현실 세계의 데이터는 확률변수가 가진 확률분포에 따라 실수 표본공간에서 선택된 표본이다. 이렇게 확률분포함수에 따라 표본공간의 표본이 현실 세계의 데이터로 선택되는 것을 실현(realization) 혹은 표본화(sampling)라고 한다. 표본화는 다른 의미로도 사용되는데 많은 수의 데이터 집합에서 일부 데이터만 선택하는 과정도 표본화라고 한다.

실현은 이상적이고(ideal), 추상적이며(abstract), 수학적인(mathematical) 세계에서 현실로 넘어가는 과정이다. 확률변수라는 데이터 모형에 따르면 현실의 표본 데이터는 이러한 수학적인 세계가 현실 세계에 투영된 그림자에 지나지 않는다. 따라서 히스토그램이나 기술통계 등 분포의 특성이 깨끗한 형태를 지니지 않지만 이는 실현 혹은 표본화 과정에서 생긴 잡음일 뿐이면 그 내면에는 원래의 수학적 특성을 내포하고 있다.

따라서 확률변수와 실제 데이터는 다음과 같은 관계가 있다.

  • 확률변수로부터 데이터를 여러번 생성하는 경우 실제 데이터 값은 매번 달라질 수 있지만 확률 모형 자체는 변하지 않는다.
  • 확률변수의 확률분포함수는 우리가 직접 관찰할 수 없다. 다만 확률변수에서 만들어지는 실제 데이터 값을 이용하여 확률분포함수가 이러한 것일 거라고 추정할 뿐이다.
  • 확률변수에서 만들어 지는 실제 데이터의 값은 확률변수가 가진 특성을 반영하고 있다. 데이터의 갯수가 적을수록 확률변수가 가진 특징을 정확하게 표현하지 못하지만 데이터의 갯수가 증가하면 보다 정확하게 확률분포함수를 묘사할 수 있게 된다.

확률변수를 사용한 데이터 분석

확률변수를 사용하게 되면 데이터 분석은 다음과 같은 순서로 이루어진다.

  1. 데이터를 확보한다.
  2. 확보된 데이터를 어떤 확률변수의 표본으로 가정한다.
  3. 데이터의 특성으로부터 확률변수의 특성을 추정한다.
  4. 구해진 확률변수의 특성으로 해당 확률분포함수의 모양을 결정하고 모수를 추정한다.
  5. 구해진 확률변수으로부터 다음에 생성될 데이터나 데이터 특성을 예측한다.
728x90
Posted by Mr. Slumber
,