728x90
반응형

(개념) 텍스트 마이닝 기법의 하나로, 문서 집합에서 추상적인 주제(토픽)을 발견하기 위한 통계적 모델

토픽 모델링 활용 안전・신뢰 AI 관련 주요 이슈 도출 및 주제별 키워드 분석, 2024년 기술영향평가, 한국과학기술기획평가원, 2025-03-17

 

기본 개념

  • 토픽 (Topic): 문서 집합에서 나타나는 추상적인 주제.
  • 확률 기반 모델링: 텍스트 데이터에서 핵심 주제를 찾기 위해 확률 기반 모델링 기법을 사용.
  • 비지도 학습 (Unsupervised Learning): 사전 정의된 태그나 훈련 데이터 없이 텍스트 데이터 내에서 숨겨진 패턴을 식별하는 데 사용되는 머신 러닝 방법.
  • 단어 분포: 각 토픽은 단어 분포를 가지며, 이는 특정 단어가 해당 토픽에 나타날 확률을 의미.
  • 문서 토픽 분포: 각 문서는 토픽 분포를 가지며, 이는 문서에서 특정 토픽이 나타날 확률을 의미

중요성

  • 비정형 데이터 분석: 텍스트, 이미지, 오디오와 같은 비정형 데이터에서 가치 있는 정보를 추출. 새로운 회사 데이터의 80~90%가 비정형 데이터에 해당한다.
  • 정보 구성 및 검색 개선: 텍스트 모음 내에서 주요 주제를 식별하여 문서 컬렉션을 구성하고 검색을 용이하게 한다.
  • 고객 경험 및 개인화 향상: 고객 피드백, 리뷰 및 소셜 미디어 데이터를 분석하여 고객에게 중요한 주제와 정서를 파악하고 제품, 서비스 및 개인화된 추천을 개선하는 데 사용.
  • 반복 작업 자동화: 주제에 따라 텍스트 정보를 분류하고 구성하여 고객 서비스 티켓 태깅, 파일 분류 및 콘텐츠 요약과 같은 시간이 많이 소요되는 반복 작업을 자동화.
  • 트렌드 분석 및 모니터링: 시간이 지남에 따라 주제 분포의 변화를 추적하여 새로운 트렌드, 여론 변화 및 전략적 의사 결정과 관련된 기타 패턴을 파악.
  • 학문적 연구 가속화: 방대한 양의 문헌을 분석하고 새로운 연구 동향을 발견하며, 이질적인 분야 간의 연결 고리를 찾아 연구 및 혁신의 속도를 가속화.

작동 방식

  1. 데이터 준비: 분석할 텍스트 문서를 준비한다.
  2. 전처리: 불용어 제거, 구두점 제거, 형태소 분석(lemmatization) 등을 수행하여 텍스트를 정리한다.
  3. DTM (Document-Term Matrix) 생성: 문서-용어 행렬을 만들어 각 문서에서 각 단어의 빈도를 나타낸다.
  4. 모델 훈련: 토픽 모델링 알고리즘을 적용하여 데이터에 적합한 모델을 찾고, 숨겨진 토픽 구조를 파악한다.
  5. 결과 해석: 추출된 토픽과 해당 토픽을 구성하는 단어들을 분석하여 각 토픽의 의미를 해석하고, 문서 집합 전체의 주제를 파악한다.

기법 종류

  • 잠재 의미 분석 (Latent Semantic Analysis, LSA): 특이값 분해(SVD)라는 수학적 기법을 사용하여 텍스트 모음 내의 숨겨진 의미 관계를 식별한다. 단어와 문서 간의 관계를 포착하여 텍스트의 주제 구조를 이해하는 데 사용.
  • 잠재 디리클레 할당 (Latent Dirichlet Allocation, LDA): 확률론적 접근 방식을 사용하여 텍스트 코퍼스의 숨겨진 주제 구조를 발견한다. 각 문서는 여러 주제의 혼합으로 구성되며, 각 주제는 어휘에 대한 분포를 특징으로 한다는 가정을 사용.

토픽 수 결정 방법

토픽 모델링에서 가장 중요한 것은 최적의 토픽 수를 결정하는 것이다. 토픽 수를 결정하는 대표적인 방법은 혼잡도(Perplexity)와 응집도(Coherence)를 이용하는 것이다.

  • 혼잡도 (Perplexity): 모델이 얼마나 잘 예측하는지 나타내는 지표로, 낮은 perplexity 값은 모델이 문서에서 나타나는 단어를 더 잘 예측한다는 것을 의미한다.
  • 응집도 (Coherence): 발견된 토픽이 얼마나 의미있는지 나타내는 지표로, 높은 coherence 값은 토픽 내 단어들이 서로 관련성이 높다는 것을 의미한다. 응집도는 자료 안에서 단어 간 연결 정도를 평가하는 지표로 문서에서 단어들이 동시에 어느 정도 등장하는지를 측정한다.

토픽 모델링 예시

  • SSG닷컴: 자체 자연어처리기술과 생성형AI GPT기능을 결합해 리뷰 요약 기능 도입. NER(Named Entity Recognition) 기반 속성분류 및 토픽모델링을 추가 적용해 구체적인 표현중심 요약문 생성.
  • 대구시 스마트 공공도서관: 인공지능 기반 토픽 모델링 분석 기법을 적용한 능동형 도서추천 서비스 제공.

한계

  • 해석 가능성: 추출된 토픽이 항상 쉽게 해석 가능하지는 않을 수 있으며, 레이블을 지정하고 이해하기 위해 사람의 개입이 필요할 수 있다.
  • 매개변수 민감도: LDA와 같은 알고리즘은 여러 하이퍼파라미터(예: 토픽 수)를 설정해야 하며, 이는 결과에 상당한 영향을 미칠 수 있다.
  • 텍스트 품질: 토픽 모델링의 효과는 입력 텍스트의 품질과 정리 상태에 따라 달라진다.
728x90
Posted by Mr. Slumber
,