728x90
반응형

[개념]  OpenAI가 만든 언어 AI의 이름

(개념) 미세조정이 없는 퓨샷 학습*을 통해 언어 모델의 학습 효율을 개선 
 
* Few Shot 학습 상대적으로 적은 데이터로 인공신경망을 재학습하는 방법으로 하나의 데이터는 원샷, 데이터 없이 바로 새로운 과업을 적용하는 방법은 제로샷 학습이라고 불림 

- (원샷러닝) GPT-3와 같은 범용성 높은 언어모델에 하나의 예시만 보여주고 번역 등 원하는 Task를 해결하도록 하는 방식 
- (퓨샷러닝) 원샷러닝은 하나의 예시만 보여줬으나, 퓨샷러닝은 두 개 이상의 예시를 주며, 모델이 몇 가지의 사례를 이해하고 번역 등 Task 수행

 

- GPT-3는 기존에 공개된 마이크로소프트의 Turing-LNG보다 모델의 사이즈가 10배 이상 큰 1,750억개의 매개변수를 가진 초대규모 모델 

- 학습에 활용된 데이터(단어)는 크롤링(4,100억개), 웹텍스트(190억개), 책1(120 억개), 책2(550억개), 위키피디아(30억개)로 초대규모 데이터셋

 

백본 모델을 전이학습한 모델을 활용하여 새로운 과제(다운스트림 태스크) 해결
 
 
- 학습 데이터 인터넷 웹페이지의 데이터를 수집하는 비영리단체인 Common Crawl 데이터를 활용했고, 정제를 거쳐 약 1조 개의 단어로 구성된 데이터로 학습 
 
- AI 모델 트랜스포머 기반의 GPT-2 모델을 기본으로, 학습을 위한 가중치의 수를 조정하여 GPT-3은 기존 언어 모델보다 10배 큰 총 1,750억 개의 모수를 학습 
 
(장점)
(정확도 실험) 
1. 학습 샘플의 선택과 순열 (고정된 프롬프트 형식, 무작위 훈련 샘플 셋)
2. 프롬프트 포멧 (질문-답변 템플릿, 대화 템플릿, 웹 페이지와 유사한 프롬프트 및 레이블 이름의 변형)
 
-> 실험결과
프롬프트에서 자주 발생 : 다수 레이블 편향
프롬프트가 끝날 때 (최신 성 편향)
사전 훈련 데이터에서 공통적으로 (공통 토큰 편향) 
 
(정확도 개선) 
  1. 상황별 보정 메서드 사용 결과 정확도 30% 향상, 분산 저하
  2. 데이터셋 : 텍스트 분류, 사실 검색, 정보 추출 
 
(정확도 평가) LAMA 데이터셋 기반 평가
 

 
 
-API OpenAI는 GPT-3 기반의 자연어 처리 도구인 모델을 공개하는 대신 베타 버전의 API를 공개하여 쉽게 활용 가능한 고성능 자연어 처리 기능을 제공
 

 

이 모델은 4990억개 데이터셋 중에서 가중치 샘플링해서 3000억(300B)개로 구성된 데이터셋으로 사전 학습을 받았으며, 1750억개(175Billion) 매개 변수로 딥러닝의 한계까지 추진돼 미세 조정없이 여러 자연어 처리 벤치마크에서 최첨단 성능을 달성했다. 
 
발표된 내용이라면 단 몇 개 키워드만 넣으면 작문을 작성해주는 혁신적인 AI 언어생성 모델이자 알고리즘
 
논문: 2020.05  Language Models are Few-Shot Learner
 
인간 글쓰기 실력의 언어처리AI
기존 100배의 인공신경망 갖춰
초대형 신경망, 막대한 비용 소요
정부 투자해 공공재로 개발해야
 
 
 
 
클로즈 베타:   https://beta.openai.com/

 

 
활용:  상식 Q&A, 검색 엔진, 이력서 작성, 자유 대화, 텍스트에서 데이터 파싱, 전문적 의학지식, 프로그래밍 (쉘 스크립트 작성, 간단한 리액트 앱, 뉴스기사 작성)
의미: 범용성 (파인 튜닝 없이), AGI(Artificial General Intelligence) 로의 한 걸음
 
OpenAI의 GPT-3, AI의 진보인가 재앙인가 논란 촉발

728x90

'07.AI' 카테고리의 다른 글

자연어처리 (NLP) - GloVe  (0) 2023.05.15
머신러닝 - 파이프라인  (0) 2023.05.10
자연어처리 (NLP) - SpanBERT  (0) 2023.05.09
자연어처리 (NLP) - ALBERT  (0) 2023.05.09
자연어처리 (NLP) - word2vec  (0) 2023.05.08
Posted by Mr. Slumber
,