728x90
반응형

 

(개념) OpenAI의 트랜스포머 디코더 기반 자동회귀(Auto regression)을 이용한 단방향 언어모델  (비지도 학습)
  • 예측한 토큰이 다시 입력으로 들어가며 반복해서 토큰을 생성 (자동회귀)
- BERT의 경우 모든 입력 시퀀스 전체에 대한 셀프 어텐션을 수행하나, GPT-2의 경우 현재까지 예측한 토큰까지만 마스킹 처리
 

 
2018년 생성형 사전학습(Generative Pre-Training, GTP)을 제안하여 다양한 자연어 처리를 위해 학습된 언어 모델을 재학습시키는 접근을 취했고, 2019년에는 개선된 GTP인 GTP-2를 공개
 
(문제)  범용적인 자연어 처리 모델은 과업에 따라 여전히 미세조정(Fine-Tuning)*해야 하는 비용이 필요하여 이것을 점진적으로 개선할 필요성 존재 
* 이미 학습된 인공신경망을 유사한 과업에 전이(Transfer)하기 위해 가장 보편적으로 사용하는 방법으로 학습하고자 하는 과업에 데이터를 바탕으로 재학습하는 과정
 
 

 

 

728x90
Posted by Mr. Slumber
,