728x90
반응형

 

700억 개 매개변수의 친칠라 모델과 2천800억 개 매개변수의 고퍼 모델의 성능을 비교한 2022년의 실험 결과에서 비롯했다. 특정 매개변수 모델이 최적의 성능을 발휘하기 위해 필요한 학습 데이터양을 추정해 낸 것인데, 친칠라 모델의 경우 고퍼의 4분의 1 크기에 불과하지만, 4배 더 많은 데이터로 학습했기 때문에 더 우수한 성능을 보였다는 내용이며,

 

여기서 유추된 법칙에 따르면 5천300억 개 매개변수를 가진 모델의 경우 11조 개 토큰 상당의 학습 데이터가 필요하다. 따라서 매개변수가 2조개에 달할 것으로 보이는 GPT-5의 경우에는 60조개 이상의 토큰 학습이 필요하다는 결론이다.

그러나 문제는 인터넷의 방대한 데이터 중 쓸만한 데이터가 많지 않다는 점이다. 대부분은 품질이 낮거나 저작권 문제로 접근이 제한돼 있다. 

 

https://zdnet.co.kr/view/?no=20240408091423

 

"법 어겨도 모르쇠"…불법 판 치는 빅테크, AI 학습 데이터 무단 사용

오픈AI가 자사 생성형 인공지능(AI) 모델인 'GPT-4'를 훈련하기 위해 100만 시간 이상의 유튜브 영상을 무단 활용했다는 주장이 나왔다. 현재 인터넷상에 존재하는 데이터만으로는 2년 내 AI 모델 성

zdnet.co.kr

https://www.aitimes.com/news/articleView.html?idxno=158463

 

"2년 내 LLM 학습 데이터 고갈...데이터 문제로 AI 발전 중단될 것" - AI타임스

급속도로 성장하는 인공지능(AI) 모델이 데이터 부족 문제로 위협받고 있다는 지적이 나왔다. 현재 인터넷상에 존재하는 데이터만으로는 2년 내 AI 모델 성능을 높이는 데 한계를 맞을 것이라는

www.aitimes.com

 

728x90
Posted by Mr. Slumber
,