728x90
반응형

텍스트-이미지/비디오 변환(T2I, T2V) 및 이미지-이미지 변환(I2I) 기술

 

feat. ChatGPT

1. Text-to-Image (T2I) & Text-to-Video (T2V)

  • T2I (Text-to-Image):
    예시 – DALL·E 2+, Stable Diffusion, Stability AI 등.
  • T2V (Text-to-Video):
    예시 – OpenAI의 Sora.
  • 공통 구조:
    • 텍스트 인코더 (주로 CLIP)
    • 이미지 디코더 (주로 확산모델, diffusion model)

2. CLIP의 역할

  • CLIP은 텍스트와 이미지를 동일한 임베딩 공간에 매핑하는 모델.
  • 텍스트 프롬프트를 인코딩해서 이미지 생성을 가이드함.
  • 그림(왼쪽): 텍스트 인코더와 이미지 인코더가 텍스트-이미지 관계를 학습하는 구조 (출처: OpenAI 2021).

3. 확산 모델(Diffusion model)

  • 이미지나 영상을 잡음(noise)에서 점진적으로 제거(iterative denoising) 하며 생성.
  • 그림(오른쪽):
    • Forward diffusion: 이미지를 점점 노이즈화
    • Reverse diffusion: 노이즈를 점점 제거하면서 새로운 이미지 생성
  • 출처: Nvidia 2022

4. Image-to-Image (I2I)

  • I2I (Image-to-Image):
    기존 이미지를 변형하거나 새로운 스타일로 변환하는 기술.
    예: 실사 이미지를 애니메이션/지브리풍 이미지로 변환.
  • 구조: 이미지/텍스트 인코더 + 이미지 디코더
  • 아래 예시 이미지: 실사 인물이 애니메이션 스타일로 변환된 사례.
정리:
이 슬라이드는 텍스트나 이미지를 입력받아 새로운 이미지·비디오를 생성하는 기술(T2I, T2V, I2I)을 설명합니다.

  • CLIP 같은 멀티모달 인코더가 텍스트와 이미지를 연결하고,
  • 확산모델이 노이즈를 제거하면서 실제 이미지/영상을 만들어내며,
  • I2I는 기존 이미지를 변환하는 방식으로 활용됩니다.

 

728x90
Posted by Mr. Slumber
,