Char :: LLM - 멀티모달 AI - Text-to-Image (T2I) & Text-to-Video (T2V)

LLM - 멀티모달 AI - Text-to-Image (T2I) & Text-to-Video (T2V)

07.AI 2025. 8. 28. 06:31

728x90

텍스트-이미지/비디오 변환(T2I, T2V) 및 이미지-이미지 변환(I2I) 기술

feat. ChatGPT

이미지나 영상을 잡음(noise)에서 점진적으로 제거(iterative denoising) 하며 생성.
그림(오른쪽):
- Forward diffusion: 이미지를 점점 노이즈화
- Reverse diffusion: 노이즈를 점점 제거하면서 새로운 이미지 생성
출처: Nvidia 2022

I2I (Image-to-Image):
기존 이미지를 변형하거나 새로운 스타일로 변환하는 기술.
예: 실사 이미지를 애니메이션/지브리풍 이미지로 변환.
구조: 이미지/텍스트 인코더 + 이미지 디코더
아래 예시 이미지: 실사 인물이 애니메이션 스타일로 변환된 사례.

✅ 정리:
이 슬라이드는 텍스트나 이미지를 입력받아 새로운 이미지·비디오를 생성하는 기술(T2I, T2V, I2I)을 설명합니다.

728x90

인공지능 - MoR (Mixture-of-Recursions) (1)	2025.08.31
LLM - 토큰 팩토리 (Token Factory) (1)	2025.08.30
AI 저널리즘 - 생성형 AI 저작권 - 기억(Memorization) 문제 (2)	2025.08.28
생성형 AI - 추론 ‘inference’ 비용 (1)	2025.08.27
LLM - Google, ATLAS (6)	2025.08.27

Posted by Mr. Slumber