728x90
반응형

(개념) 음성 인식, 스피치-투-텍스트(Speech to text), 이미지 인식 기능등이 통합된 대화형 인터페이스 형태로 자연스러운 실시간 상호작용이 가능한멀티모달(Multimodal) 모델

 

GPT-4o의 ‘o’는 하나의 통합된 AI 모델을 의미하는 ‘옴니모델(Omni model)’ 의미

 

 

(특징)

기존 GPT 모델이 글자(텍스트)를 통해 명령하는 방식이라면, GPT-4o는 음성,텍스트, 시각물을 입력하면 AI가 추론하고 그 결과를 도출

※ GPT-4 응답시간은 평균 5.4초, GPT-4o는 최소 232밀리초, 평균 320ms

 

 

- 오픈AI는 복잡한 기술 향상보다는 AI가 실제 우리 삶을 어떻게 바꿀 수 있는지구현하는 데 집중하며 사용 편의성을 극대화하는 등 시연에서는 지금까지 AI음성 챗봇에는 없었던 사실적인 대화가 진행

 

- 현재 출시된 타사의 음성 비서와 달리 사용자와 실시간으로 상호 작용을 하며 사용자의요청에 따라 목소리 톤을 높이고 대화 속도를 빠르게 할 수 있는 점이 특징

 

 

https://www.msit.go.kr/bbs/view.do?sCode=user&mId=101&mPid=100&pageIndex=&bbsSeqNo=80&nttSeqNo=3167305&searchOpt=ALL&searchTxt=

 

 

728x90
Posted by Mr. Slumber
,