728x90
반응형

(개념) 가우시안 분포 (정규분포)를 여러 개 혼합하여 데이터의 복잡한 분포를 근사하기 위한 알고리즘

 

- 원본데이터의 각 컬럼이 여러 정규분포가 혼합되어 있다는 가정 하에, 모수인 평균과 표준편차로부터 분포를 추정하고 각 분포에서 난수를 생성

 

- 원본데이터를 하나의 정규분포 모형으로 표현하는 것이 적절치 않은문제점을 여러 개의 정규분포 모형을 혼합하여 극복하고자 하는 방법

 

 𝐾개의 가우시안 분포를 혼합하여 복잡한 형태의 확률분포를 근사한다. 𝐾는 몇 개의 가우시안 분포를 혼합할 것인지를 결정하는 GMM의 hyperparameter이며, 그림 1은 𝐾=3으로 설정된 GMM을 나타낸다.

 

그림 1. 다수의 가우시안 분포를 혼합하여 복잡한 확률분포를 근사하는 방법

 

 (장점) 범주형 컬럼이 많지 않고 연속형 데이터가 있는 경우에 효과적

 (단점) 정규분포 가정이 적합하지 않은 경우엔 정확도가 떨어짐

 

 

https://untitledtblog.tistory.com/133

 

[머신러닝] 가우시안 혼합 모델 (Gaussian Mixture Model, GMM)과 EM 알고리즘

1. 가우시안 혼합 모델의 개념 Gaussian Mixture Model (GMM)은 이름 그대로 가우시안 분포 (정규분포)를 여러 개 혼합하여 데이터의 복잡한 분포를 근사하기 위한 머신러닝 알고리즘이다. GMM은 그림 1과

untitledtblog.tistory.com

https://losskatsu.github.io/machine-learning/gmm/#%EC%B0%B8%EA%B3%A0%EB%A7%81%ED%81%AC

 

[머신러닝] 가우시안 혼합 모델(Gaussian mixture model) 기초 개념

가우시안 혼합 모델(Gaussian mixture model) 기초 개념

losskatsu.github.io

 

728x90
Posted by Mr. Slumber
,