728x90
반응형
(정의) 토픽 모델링의 알고리즘은 확률 그래프 모델로 분포를 이용하여 어떤 주제에 대해 단어들이 포함될 확률을 모델링하는 방법
 
텍스트 분류 모델이 아니고, 주어진 문서들에 어떤 주제들이 존재하는지를 다루는 토픽 모델
 
- LDA의 결과로 만들어진 토픽 중심 모델은 각 토픽들에 단어가 분류되는데 분류 기준이 표시되지 않기 때문에 구성된 모델을 보고 직접 주제를 부여해야 함
 
- 토픽을 구성하는 단어들을 보고 주어진 키워드의 핵심 가치와 단어들의 의미 적 연관성을 고려하여 진행이 필요
 
(단계)
보통 N개의 문서가 주어 지고 k개의 주제를 설정하면,
LDA 모델에서는
1) k개의 주제로 군집화한 단어 목록을 만들어 주며,
2)군집화된 단어 목록을 보고 사람이 k개 각각의 주제를 추론하게 된다.
3)다음 미리 주어진 주제별 단어 빈도수를 기반으로 하여 주어진 문서의 단어 빈도수를 분석하여
4)문서가 어떤 주제와 관련되어 있는지를 예측할 수 있다.
 

728x90
Posted by Mr. Slumber
,