728x90
반응형

(개념) 음성 인식, 스피치-투-텍스트(Speech to text), 이미지 인식 기능등이 통합된 대화형 인터페이스 형태로 자연스러운 실시간 상호작용이 가능한멀티모달(Multimodal) 모델

 

GPT-4o의 ‘o’는 하나의 통합된 AI 모델을 의미하는 ‘옴니모델(Omni model)’ 의미

 

 

(특징)

기존 GPT 모델이 글자(텍스트)를 통해 명령하는 방식이라면, GPT-4o는 음성,텍스트, 시각물을 입력하면 AI가 추론하고 그 결과를 도출

※ GPT-4 응답시간은 평균 5.4초, GPT-4o는 최소 232밀리초, 평균 320ms

 

 

- 오픈AI는 복잡한 기술 향상보다는 AI가 실제 우리 삶을 어떻게 바꿀 수 있는지구현하는 데 집중하며 사용 편의성을 극대화하는 등 시연에서는 지금까지 AI음성 챗봇에는 없었던 사실적인 대화가 진행

 

- 현재 출시된 타사의 음성 비서와 달리 사용자와 실시간으로 상호 작용을 하며 사용자의요청에 따라 목소리 톤을 높이고 대화 속도를 빠르게 할 수 있는 점이 특징

 

(파인튜닝) 

기업들이 AI를 특정 용도에 맞게 맞춤화할 수 있는 기능인데요. 개발자들의 요청이 가장 많았던 기능 중 하나였습니다. 이제 개발자들은 맞춤형 데이터셋을 활용해 GPT-4o 모델을 미세 조정하여 성능을 향상시킬 수 있게 되었습니다. 비용은 GPT-4o 모델 학습의 경우 100만 토큰 당 25달러이고요. 모델 추론은 입력 토큰 100만 개 당 3.75달러, 출력은 15달러입니다. 

오픈AI는 코사인(Cosine), 디스틸AI(Distyl AI) 등의 기업과 협업하여 GPT-4o 파인튜닝 성능을 실험했는데요. SWE-bench와 BIRD-SQL이라는 개발 분야 벤치마크에서 가장 높은 점수를 기록했다고 합니다. 또 오는 23일까지 모든 기관에 일일 최대 100만 개의 훈련 토큰, 200만 개의 GPT-4o 미니 학습 토큰이 제공될 예정

 

https://www.msit.go.kr/bbs/view.do?sCode=user&mId=101&mPid=100&pageIndex=&bbsSeqNo=80&nttSeqNo=3167305&searchOpt=ALL&searchTxt=

 

주간동향 - 과학기술정보통신부

정책·통계 홈 주간동향 공유하기 인쇄 TOP

www.msit.go.kr

https://openai.com/index/gpt-4o-fine-tuning/

 

 

 

 

728x90
Posted by Mr. Slumber
,