07.AI
LLM - 멀티모달 AI - Text-to-Image (T2I) & Text-to-Video (T2V)
Mr. Slumber
2025. 8. 28. 06:31
텍스트-이미지/비디오 변환(T2I, T2V) 및 이미지-이미지 변환(I2I) 기술
| feat. ChatGPT |
1. Text-to-Image (T2I) & Text-to-Video (T2V)
- T2I (Text-to-Image):
예시 – DALL·E 2+, Stable Diffusion, Stability AI 등.
- T2V (Text-to-Video):
예시 – OpenAI의 Sora.
- 공통 구조:
- 텍스트 인코더 (주로 CLIP)
- 이미지 디코더 (주로 확산모델, diffusion model)
2. CLIP의 역할
- CLIP은 텍스트와 이미지를 동일한 임베딩 공간에 매핑하는 모델.
- 텍스트 프롬프트를 인코딩해서 이미지 생성을 가이드함.
- 그림(왼쪽): 텍스트 인코더와 이미지 인코더가 텍스트-이미지 관계를 학습하는 구조 (출처: OpenAI 2021).
3. 확산 모델(Diffusion model)
- 이미지나 영상을 잡음(noise)에서 점진적으로 제거(iterative denoising) 하며 생성.
- 그림(오른쪽):
- Forward diffusion: 이미지를 점점 노이즈화
- Reverse diffusion: 노이즈를 점점 제거하면서 새로운 이미지 생성
- 출처: Nvidia 2022
4. Image-to-Image (I2I)
- I2I (Image-to-Image):
기존 이미지를 변형하거나 새로운 스타일로 변환하는 기술. 예: 실사 이미지를 애니메이션/지브리풍 이미지로 변환.
- 구조: 이미지/텍스트 인코더 + 이미지 디코더
- 아래 예시 이미지: 실사 인물이 애니메이션 스타일로 변환된 사례.
✅ 정리: 이 슬라이드는 텍스트나 이미지를 입력받아 새로운 이미지·비디오를 생성하는 기술(T2I, T2V, I2I)을 설명합니다.
- CLIP 같은 멀티모달 인코더가 텍스트와 이미지를 연결하고,
- 확산모델이 노이즈를 제거하면서 실제 이미지/영상을 만들어내며,
- I2I는 기존 이미지를 변환하는 방식으로 활용됩니다.
|