728x90
반응형
700억 개 매개변수의 친칠라 모델과 2천800억 개 매개변수의 고퍼 모델의 성능을 비교한 2022년의 실험 결과에서 비롯했다. 특정 매개변수 모델이 최적의 성능을 발휘하기 위해 필요한 학습 데이터양을 추정해 낸 것인데, 친칠라 모델의 경우 고퍼의 4분의 1 크기에 불과하지만, 4배 더 많은 데이터로 학습했기 때문에 더 우수한 성능을 보였다는 내용이며,
여기서 유추된 법칙에 따르면 5천300억 개 매개변수를 가진 모델의 경우 11조 개 토큰 상당의 학습 데이터가 필요하다. 따라서 매개변수가 2조개에 달할 것으로 보이는 GPT-5의 경우에는 60조개 이상의 토큰 학습이 필요하다는 결론이다.
그러나 문제는 인터넷의 방대한 데이터 중 쓸만한 데이터가 많지 않다는 점이다. 대부분은 품질이 낮거나 저작권 문제로 접근이 제한돼 있다.
https://zdnet.co.kr/view/?no=20240408091423
https://www.aitimes.com/news/articleView.html?idxno=158463
728x90
'13.일상다반사' 카테고리의 다른 글
클라우드 컴퓨팅 - 낭비되고 있는 클라우드 비용, 월간요금 473만 원 직접 절감한 노하우 (1) | 2024.12.09 |
---|---|
LLM - Kanana LLM (2) | 2024.12.09 |
BI 도구 5가지 업체 비교 (0) | 2024.08.30 |
2024년 오픈 클라우드 플랫폼(K-PaaS) 전문가 7차 교육 안내 (07.24. ~ 08.01.) (0) | 2024.08.03 |
[Excel] VBA - 셀 선택시 특정 문자 'o' 인 경우 Row 숨기기 (0) | 2024.04.26 |