728x90
반응형
(개념) 음성 인식, 스피치-투-텍스트(Speech to text), 이미지 인식 기능등이 통합된 대화형 인터페이스 형태로 자연스러운 실시간 상호작용이 가능한멀티모달(Multimodal) 모델
GPT-4o의 ‘o’는 하나의 통합된 AI 모델을 의미하는 ‘옴니모델(Omni model)’ 의미
(특징)
기존 GPT 모델이 글자(텍스트)를 통해 명령하는 방식이라면, GPT-4o는 음성,텍스트, 시각물을 입력하면 AI가 추론하고 그 결과를 도출
※ GPT-4 응답시간은 평균 5.4초, GPT-4o는 최소 232밀리초, 평균 320ms
- 오픈AI는 복잡한 기술 향상보다는 AI가 실제 우리 삶을 어떻게 바꿀 수 있는지구현하는 데 집중하며 사용 편의성을 극대화하는 등 시연에서는 지금까지 AI음성 챗봇에는 없었던 사실적인 대화가 진행
- 현재 출시된 타사의 음성 비서와 달리 사용자와 실시간으로 상호 작용을 하며 사용자의요청에 따라 목소리 톤을 높이고 대화 속도를 빠르게 할 수 있는 점이 특징
728x90
'07.AI' 카테고리의 다른 글
생성형 AI (1) | 2024.06.06 |
---|---|
생성형 AI - Gemini(제미나이) (2) | 2024.06.04 |
생성 모델 - 이미지 - 디퓨전 모델(Diffusion models) (0) | 2024.05.30 |
생성 모델 - 이미지 - 플로우 기반 모델(Flow-based models) (0) | 2024.05.30 |
생성 모델 - 이미지 - VAE(Variational Autoencoder) (0) | 2024.05.30 |