Char :: LLM - Open AI, GPT-2

LLM - Open AI, GPT-2

07.AI 2023. 11. 25. 15:56

728x90

(개념) OpenAI의 트랜스포머 디코더 기반 자동회귀(Auto regression)을 이용한 단방향 언어모델 (비지도 학습)

- BERT의 경우 모든 입력 시퀀스 전체에 대한 셀프 어텐션을 수행하나, GPT-2의 경우 현재까지 예측한 토큰까지만 마스킹 처리

챗봇 딥러닝 - 그림으로 아주 쉽게 설명한, The Illustrated GPT-2

시각화의 장인 Jay Alammar가 설명하는 GPT2입니다. 정말 쉽게, 그리고 매우 자세히 모델의 동작방식을 보여주고 있습니다. GPT2는 BERT와 마찬가지로 트랜스포머가 기반입니다. 다만 BERT는 트랜스포머

aidev.co.kr

2018년 생성형 사전학습(Generative Pre-Training, GTP)을 제안하여 다양한 자연어 처리를 위해 학습된 언어 모델을 재학습시키는 접근을 취했고, 2019년에는 개선된 GTP인 GTP-2를 공개

(문제) 범용적인 자연어 처리 모델은 과업에 따라 여전히 미세조정(Fine-Tuning)*해야 하는 비용이 필요하여 이것을 점진적으로 개선할 필요성 존재

* 이미 학습된 인공신경망을 유사한 과업에 전이(Transfer)하기 위해 가장 보편적으로 사용하는 방법으로 학습하고자 하는 과업에 데이터를 바탕으로 재학습하는 과정

728x90

인공지능 - 플랫폼 - AutoML - Keras (0)	2023.11.29
인공지능 - 플랫폼 - AutoML (1)	2023.11.29
클라우드 컴퓨팅 - IQaaS (Intelligence-as-a-service) (0)	2023.11.24
[ChatGPT] 논문 PDF 업로드 및 Q&A 방법 (1)	2023.11.21
통계 - 결측치 (Missing Value) (0)	2023.11.18

Posted by Mr. Slumber