728x90
반응형
(개념) 가우시안 분포 (정규분포)를 여러 개 혼합하여 데이터의 복잡한 분포를 근사하기 위한 알고리즘
- 원본데이터의 각 컬럼이 여러 정규분포가 혼합되어 있다는 가정 하에, 모수인 평균과 표준편차로부터 분포를 추정하고 각 분포에서 난수를 생성
- 원본데이터를 하나의 정규분포 모형으로 표현하는 것이 적절치 않은문제점을 여러 개의 정규분포 모형을 혼합하여 극복하고자 하는 방법
𝐾개의 가우시안 분포를 혼합하여 복잡한 형태의 확률분포를 근사한다. 𝐾는 몇 개의 가우시안 분포를 혼합할 것인지를 결정하는 GMM의 hyperparameter이며, 그림 1은 𝐾=3으로 설정된 GMM을 나타낸다.
(장점) 범주형 컬럼이 많지 않고 연속형 데이터가 있는 경우에 효과적
(단점) 정규분포 가정이 적합하지 않은 경우엔 정확도가 떨어짐
https://untitledtblog.tistory.com/133
https://losskatsu.github.io/machine-learning/gmm/#%EC%B0%B8%EA%B3%A0%EB%A7%81%ED%81%AC
728x90
'07.AI' 카테고리의 다른 글
자연어처리 (NLP) - GPT-4o mini (1) | 2024.07.23 |
---|---|
인공지능 - 재현 데이터(Synthetic Data) (0) | 2024.07.12 |
인공지능 - 범 일반 지능(AGI, Artificial General Intelligence) (0) | 2024.07.10 |
생성형 AI - 4M(Massively Multimodal Masked Modeling) AI 모델 (0) | 2024.07.08 |
품질관리 - 데이터 품질 - AI 요구사항 (0) | 2024.07.03 |