728x90
반응형

ETRI가 공개한 구어체 언어분석 기술은 크게 형태소분석 기술과 개체명 인식 기술 두 가지이다. ETRI가 공개한 기술은 TTA 표준 가이드라인을 따르며, 형태소 태그는 47개, 개체명 태그는 146개다.
형태소분석 기술은 한국어 의미의 최소 단위를 분석하는 기술로 한국어 처리에 필수적으로 활용된다. 특히 지난해 코버트(KorBERT) 딥러닝 언어모델의 기본 입력으로 적용, 많은 기업에서도 ETRI 제안 방법과 같이 형태소분석에 기반한 딥러닝 언어모델 기술을 활용 중이다.
 
개체명 인식 기술은 문장 내 고유 대상과 그 의미를 인식하는 기술로 AI스피커와 챗봇 등 다양한 언어처리 서비스에서 활용도가 높은 기술이다.
연구진은 전이학습(transfer learning)과 데이터 증강(data augmentation) 기법을 활용하여 학습데이터 부족 한계를 극복해냈다.
 
전이학습과 데이터 증강 기법은 학습 데이터가 부족한 환경에서 딥러닝 기술 한계를 극복하기 위한 기술로 이미 존재하는 타 분야의 학습 모델과 소량의 학습데이터를 재사용하는 방식으로 학습이 이뤄진다.
 
그 결과, 본 구어체 언어분석 API는 기존 모델 대비 형태소분석과 개체명 인식 성능이 각각 5.0%, 7.6% 개선되었으며, 41.74%, 39.38%에 달하는 오류감소율을 나타냈다. 특히, 형태소분석은 메캡(Mecab) 오픈소스 라이브러리 대비 10.6% 더 우수한 것으로 평가됐다.
 

728x90
Posted by Mr. Slumber
,