728x90
반응형

Sora: 텍스트에서 비디오를 생성하는 AI 모델

 

이 모델은 비디오와 이미지를 패치라고 하는 더 작은 데이터 단위의 모음으로 표현하며, 각 패치는 GPT의 토큰과 유사하다. 또, 데이터를 표현하는 방식을 통합함으로써 다양한 지속 시간, 해상도 및 종횡비에 걸쳐 이전보다 더 넓은 범위의 시각적 데이터에 대해 확산 트랜스포머(Diffusion Transformer)를 훈련시킬 수 있다.

 

  • Sora는 텍스트 지시에 따라 현실적이고 상상력이 풍부한 장면을 만들어내는 AI 모델
  • 사용자의 프롬프트에 충실하면서 시각적 품질을 유지하고 최대 1분 길이의 비디오 생성 가능
  • 상세한 시나리오를 제공하는 다양한 프롬프트에 따라 생성된 비디오 예시들 소개
    • 이 페이지의 모든 비디오는 Sora가 직접 제작한 것으로 전혀 수정되지 않은 것
  • 현재 Sora는 위험성 평가를 위해 '레드 팀'에게 제공되고 있으며, 시각 예술가, 디자이너, 영화 제작자들로부터 피드백을 받고 있음
  • OpenAI는 연구 진행 상황을 공유하여 외부인들로부터 피드백을 받고 AI 기능의 미래를 대중에게 보여주고자 함

    ‘소라’는 확산 모델(Diffusion Model)로, 정적 노이즈처럼 보이는 동영상으로 시작하여 여러 단계에 걸쳐 노이즈를 제거하여 점진적으로 변환하는 방식으로 동영상을 생성하며, 전체 비디오를 한 번에 생성하거나 생성된 비디오를 확장하여 더 길게 만들 수 있다.

    모델에 한 번에 많은 프레임을 미리 파악함으로써 대상이 일시적으로 시야를 벗어나더라도 동일한 상태를 유지하도록 하는 어려운 문제를 해결했으며, GPT 모델과 마찬가지로 소라는 트랜스포머 아키텍처를 사용하여 뛰어난 확장 성능을 구현한다.

    특히, 소라는 비디오와 이미지를 패치라고 하는 더 작은 데이터 단위의 모음으로 표현하며, 각 패치는 GPT의 토큰과 유사하다. 또, 데이터를 표현하는 방식을 통합함으로써 다양한 지속 시간, 해상도 및 종횡비에 걸쳐 이전보다 더 넓은 범위의 시각적 데이터에 대해 확산 트랜스포머(Diffusion Transformer)를 훈련시킬 수 있다.

    ‘소라’는 달리(DALL·E) 및 GPT 모델의 과거 연구를 기반으로 한다. 그것은 시각적 훈련 데이터에 대해 매우 설명적인 캡션을 생성하는 것을 포함하는 DALL·E 3의 요약 기술을 사용해 결과적으로, 모델은 생성된 비디오에서 사용자의 텍스트 지시를 더 충실히 따를 수 있다.

Sora의 능력

  • 복잡한 장면과 다수의 캐릭터, 특정한 움직임, 주제와 배경의 정확한 디테일을 생성할 수 있음
  • 사용자의 프롬프트뿐만 아니라 물리적 세계에서의 존재 방식도 이해함

Sora의 안전성

  • OpenAI 제품에 Sora를 통합하기 전에 여러 안전 조치를 취할 예정임
  • 오해의 소지가 있는 콘텐츠를 탐지하는 도구 개발, 비디오가 Sora에 의해 생성되었는지 판별할 수 있는 분류기 개발 등이 포함됨

연구 기술

  • Sora는 노이즈가 가득한 비디오에서 시작하여 점차 노이즈를 제거해가며 비디오를 생성하는 확산 모델임
  • GPT 모델과 유사한 트랜스포머 아키텍처를 사용하여 뛰어난 확장 성능을 제공함

GN⁺의 의견

  • Sora는 텍스트 기반의 지시를 통해 비디오를 생성하는 혁신적인 AI 기술로, 창의적인 전문가들에게 새로운 가능성을 제공함
  • 안전 조치와 피드백을 통해 실제 세계에서의 사용을 학습하고, AI 시스템을 점진적으로 안전하게 만드는 데 중요한 역할을 함
  • 이 기술은 미래의 AGI(인공 일반 지능) 달성을 위한 중요한 이정표가 될 것으로 보임

Hacker News 의견

  • 한 사용자는 기술적 성과에도 불구하고 미래에 대한 우려를 표현함. 사회 안전망이 부족하고, 보편적 기본소득(UBI)에 가까워지지 않고 있다고 생각함. 또한 한 회사가 너무 많은 권력을 가지는 것에 대한 두려움을 나타냄.
  • 다른 사용자는 컴퓨터 생성 모션의 질에 깊은 인상을 받음. 특히 모션 캡처와 달리, 컴퓨터 애니메이션에서 실제와 같은 움직임을 구현하는 것이 어렵지만, 이번에는 매우 현실적으로 느껴진다고 함.
  • 또 다른 사용자는 이미지/비디오 측면을 넘어서 물리학과 객체 간의 관계에 대한 이해를 보여주는 모델의 중요성을 강조함. 실패한 사례로 언급된 예시들이 실제로는 모델의 세계에 대한 강력한 이해를 보여주는 중요한 사례라고 평가함.
  • 할리우드 리포터에 따르면, 업계 많은 사람들이 AI 도구의 발전으로 인해 직업에 대한 두려움을 느끼고 있음. 일부는 업계를 떠날 것을 고려하고 있으며, AI 도구가 특히 광고 제작 분야에서 일자리에 영향을 미칠 것으로 예상됨.
  • 한 사용자는 현재 공개된 모델들을 훨씬 뛰어넘는 성과에 대해 언급함.
  • 또 다른 사용자는 도쿄 비디오에서 발견된 작은 오류에 주목하며, 생성된 콘텐츠에 항상 이런 오류가 존재할지, 그리고 어린 시절부터 생성된 콘텐츠에 노출된 아이들이 이러한 오류에 무감각해질지에 대한 의문을 제기함.
  • 한 사용자는 Gemini 1.5 모델이 구식이 되었으며, Google이 블로그를 통해 발표한 것에 놀라움을 표현함.
  • 한 프로그래머는 AI의 발전으로 인한 불길한 예감을 표현하며, 이는 단순히 일자리를 잃을 수 있다는 두려움을 넘어서는 것이라고 함. 비디오의 품질에 대해서는 믿을 수 없을 정도로 인상적이라고 평가함.
  • 한 사용자는 비디오 생성 방식에 대한 기술적인 질문을 던지며, 모델이 장면의 기하학적 구조와 카메라를 분리하는 방식에 대해 궁금해함.
  • 마지막 사용자는 기술의 발전이 문화적 변화를 가져올 것이라고 생각하며, 극장에서 인간의 연극, 강연, 콘서트를 더 많이 보고 싶어질 것이라고 함. Vinyl의 인기가 다시 높아진 것처럼, 극장이 다시 인기를 끌 수 있다고 예상함.

▲ OpenAI의 Sora 모델 작동 원리 (https://news.hada.io/topic?id=13929)

  • Sora(소라)는 Diffusion Transformers(DiT), Latent Diffusion을 기반으로 하며, 모델과 훈련 데이터셋을 대규모로 확장
  • 소라는 비디오 모델을 확장하는 것이 가치가 있으며, 대규모 언어 모델(LLM)과 유사한 추가 확장이 모델을 빠르게 개선하는 주요 동력이 될 것임을 보여줌
  • Runway, Genmo, Pika와 같은 회사들이 Sora와 같은 비디오 생성 모델을 위한 직관적인 인터페이스와 워크플로우를 구축 중임
  • 소라 훈련에는 1개월 동안 4,200~10,500개의 Nvidia H100 GPU로 추정되는 엄청난 양의 컴퓨팅 파워가 필요
  • 추론의 경우, Sora는 Nvidia H100 GPU당 시간당 최대 약 5분 분량의 동영상을 생성할 수 있는 것으로 추정. LLM과 비교했을 때, 소라와 같은 확산 기반 모델의 추론은 몇 배나 더 비쌈
  • 소라와 같은 모델이 널리 배포됨에 따라 추론 컴퓨팅이 훈련 컴퓨팅을 지배할 것이며, '손익분기점'은 1,530만~3,810만 분의 동영상이 생성될 때로 추정되며, 그 이후에는 원래 학습보다 추론에 더 많은 컴퓨팅이 소요. 이에 비해 하루에 업로드되는 동영상은 1,700만 분(TikTok)과 4,300만 분(YouTube)
  • TikTok과 YouTube에서 AI가 생성하는 비디오의 비중을 고려할 때, 추론을 위한 Nvidia H100 GPU의 최대 수요는 약 72만개로 추정됨

Illustration of the mapping from pixels (left) to a latent representation (the grid of boxes on the right).
Market map of companies in the video generation space.

 

배경

  • Sora 는 확산 모델에 속함. 확산 모델은 이미지 생성에 인기 있는 선택으로, OpenAI의 DALL-E나 Stability AI의 Stable Diffusion과 같은 유명 모델들이 있음. 최근에는 Runway, Genmo, Pika와 같은 회사들이 비디오 생성을 탐구하고 있으며, 이는 확산 모델을 활용할 가능성이 높음.
  • 확산 모델은 데이터에 임의의 노이즈를 추가하는 과정을 점차적으로 역전시켜 이미지나 비디오와 같은 데이터를 생성하는 방법을 학습하는 생성적 기계학습 모델의 한 종류임. 이 모델들은 순수한 노이즈 패턴에서 시작하여 점차 이 노이즈를 제거하고, 패턴을 정제하여 이해할 수 있고 상세한 출력으로 변환함.

소라의 기술적 세부 사항

  • OpenAI는 소라 발표와 함께 기술 보고서를 공개함. 이 보고서는 세부 사항이 부족하지만, 그 설계는 "Transformers를 사용한 확장 가능한 확산 모델" 연구 논문에 크게 영향을 받은 것으로 보임
  • 이 논문의 저자들은 이미지 생성을 위한 Transformer 기반 아키텍처인 DiT(확산 트랜스포머를 의미하는 Diffusion Transformers의 약자)을 제안함
  • 소라는 이 작업을 비디오 생성으로 확장하는 것으로 보임. 소라 기술 보고서와 DiT 논문을 결합함으로써, 소라 모델이 어떻게 작동하는지에 대해 상당히 정확한 그림을 얻을 수 있음
  • 소라에는 세 가지 중요한 부분이 있음:
    • 픽셀 공간에서 작동하지 않고 대신 잠재 공간에서 확산을 수행함(잠재 확산이라고 함)
    • Transformer 아키텍처를 사용함
    • 매우 큰 데이터셋을 사용하는 것으로 보임
  • 잠재 확산
    • 첫 번째 포인트인 잠재 확산을 이해하기 위해, 이미지 생성을 고려해보면
      • 각 픽셀을 확산을 사용하여 생성할 수 있지만, 이는 매우 비효율적임(예를 들어, 512x512 이미지는 262,144 픽셀을 가짐)
      • 대신, 픽셀에서 어떤 압축 요소를 가진 잠재 표현으로 매핑한 다음, 이 더욱 컴팩트한 잠재 공간에서 확산을 수행하고 마지막으로 잠재에서 픽셀 공간으로 다시 디코딩할 수 있음
      • 이 매핑은 계산 복잡성을 상당히 개선함: 512x512 = 262,144 픽셀에 대해 확산 과정을 실행하는 대신, 예를 들어 64x64 = 4,096 잠재체를 생성하기만 하면 됨
      • 이 아이디어는 "고해상도 이미지 합성을 위한 잠재 확산 모델" 연구 논문의 핵심 돌파구였으며, Stable Diffusion의 기반이 됨.
    • 픽셀에서 잠재 표현으로의 매핑 예시는 Sora 기술 보고서에서 가져온 이미지임.
    • DiT와 Sora 모두 이 접근 방식을 활용함. Sora의 경우 추가 고려 사항으로 비디오에는 시간 차원이 있음: 비디오는 이미지의 시간 순서인 프레임으로 구성됨
    • Sora 기술 보고서에서는 픽셀에서 잠재 공간으로 매핑하는 인코딩 단계가 공간적(각 프레임의 너비와 높이를 압축하는 것을 의미) 및 시간적(시간을 걸쳐 압축하는 것을 의미)으로 발생하는 것으로 보임
  • 트랜스포머
    • 두 번째 포인트로, DiT와 Sora 모두 일반적으로 사용되는 U-Net 아키텍처 대신 바닐라 트랜스포머 아키텍처를 사용함
    • 이는 DiT 논문의 저자들이 트랜스포머 사용이 예측 가능한 스케일링을 초래한다고 관찰한 것이 중요한데, 더 많은 훈련 계산을 적용하면(모델을 더 오래 훈련시키거나, 모델을 더 크게 만들거나, 또는 둘 다) 성능이 향상됨을 의미함
    • 이러한 스케일링 행위는 소위 스케일링 법칙으로 정량화될 수 있는 중요한 속성이며, 대규모 언어 모델(LLMs)과 다른 모달리티에서의 자기회귀 모델의 맥락에서 이전에 연구됨
    • 더 나은 모델을 얻기 위해 스케일을 적용하는 능력은 LLMs에 대한 빠른 진보의 주요 동력 중 하나였음
    • 이미지와 비디오 생성에도 같은 속성이 존재하므로, 여기에서도 같은 스케일링 레시피가 작동할 것으로 예상할 수 있음
  • 데이터셋
    • 모델 훈련에 필요한 마지막 핵심 요소는 레이블이 붙은 데이터이며, 이는 Sora와 같은 모델을 훈련시키는 데 있어 가장 중요한 비밀 요소로 여겨짐
    • Sora와 같은 텍스트-투-비디오 모델을 훈련시키려면, 비디오와 그에 대한 텍스트 설명의 쌍이 필요함
    • OpenAI는 자신들의 데이터셋에 대해 많이 언급하지 않지만, 그것이 매우 크다는 것을 암시함: "인터넷 규모의 데이터에 대한 훈련을 통해 일반적인 능력을 획득하는 대규모 언어 모델에서 영감을 받았다."
    • OpenAI는 또한 이미지에 자세한 텍스트 라벨을 부착하는 방법을 공개했으며, 이는 DALLE-3 데이터셋을 수집하는 데 사용됨
    • 일반적인 아이디어는 데이터셋의 레이블이 붙은 부분 집합에서 캡셔너 모델을 훈련시키고, 그 캡셔너 모델을 사용하여 나머지를 자동으로 라벨링하는 것임
    • Sora의 데이터셋에도 같은 기술이 적용된 것으로 보임

영향력

  • Sora가 몇 가지 중요한 영향을 미칠 것으로 믿음. 이제 그 영향들에 대해 간략히 살펴보면
  • 비디오 모델의 실용성 시작
    • Sora가 생성할 수 있는 비디오의 품질은 세부 수준뿐만 아니라 시간적 일관성 측면에서도 분명한 돌파구임(예를 들어, 객체가 일시적으로 가려졌을 때 객체의 영속성을 올바르게 처리하고, 물에 반사를 정확하게 생성할 수 있음)
    • 이제 비디오의 품질이 실제 애플리케이션에서 사용될 수 있는 특정 유형의 장면에 충분하다고 믿음
    • 예를 들어, Sora는 곧 일부 스톡 비디오 푸티지 사용을 대체할 수 있음
    • 그러나 여전히 남아 있는 도전 과제들이 있음:
      • 현재 Sora 모델이 얼마나 조절 가능한지 명확하지 않음
      • 모델이 픽셀을 출력하기 때문에 생성된 비디오를 편집하는 것은 어렵고 시간이 많이 소요됨
      • 또한 이 모델들을 유용하게 만들기 위해서는 직관적인 사용자 인터페이스(UI)와 워크플로우를 구축하는 것도 필요함
      • Runway, Genmo, Pika 등과 같은 회사들이 이미 이러한 문제들에 대해 작업 중임
  • 비디오 모델의 빠른 발전 예상
    • DiT 논문의 핵심 통찰 중 하나는 모델 품질이 추가적인 계산으로 직접 개선된다는 것이었으며, 이는 위에서 논의된 바와 같음
    • 이는 LLMs에 대해 관찰된 스케일링 법칙과 유사함
    • 따라서 이러한 모델들이 점점 더 많은 계산으로 훈련됨에 따라 비디오 생성 모델의 품질에 대한 빠른 추가 진보를 기대할 수 있음
    • Sora는 이 레시피가 실제로 작동한다는 것을 명확히 보여주며, OpenAI를 비롯한 다른 회사들도 이 방향으로 더욱 집중할 것으로 예상됨
  • 합성 데이터 생성 및 데이터 증강
    • 로보틱스 및 자율 주행 차량과 같은 영역에서는 데이터가 본질적으로 희귀함: 인터넷에는 작업을 수행하는 로봇이나 운전하는 차량의 영상이 풍부하지 않음.
    • 일반적으로 이러한 문제들은 시뮬레이션에서 훈련하거나 실제 세계에서 대규모로 데이터를 수집하는 방법(또는 둘 다의 조합)으로 접근해왔음
    • 하지만, 두 접근법 모두 시뮬레이션 데이터가 종종 비현실적이라는 문제에 직면함
    • 실제 세계 데이터를 대규모로 수집하는 것은 비용이 많이 들며, 드문 이벤트에 대한 충분한 데이터를 수집하는 것은 도전적임
    • Sora와 같은 모델이 여기에서 매우 유용할 수 있음. 직접 완전한 합성 데이터를 생성하는 데 사용될 수 있다고 생각함
    • Sora는 기존 비디오를 다른 모습으로 변환하는 데이터 증강에도 사용될 수 있음
    • 위에서 설명한 두 번째 포인트는 Sora가 숲길을 달리는 빨간 차의 비디오를 울창한 정글 풍경으로 변환하는 것을 보여줌
    • 같은 기술을 사용하여 장면을 낮 대 밤으로 재렌더링하거나 날씨 조건을 변경하는 것을 상상할 수 있음
  • 시뮬레이션과 월드 모델
    • 소위 월드 모델을 학습하는 것은 유망한 연구 방향임
    • 충분히 정확하다면, 이러한 월드 모델은 에이전트를 직접 내부에서 훈련시키거나 계획 및 탐색에 사용될 수 있음.
    • Sora와 같은 모델은 비디오 데이터로부터 직접 실제 세계가 어떻게 작동하는지에 대한 기본적인 시뮬레이션을 암시적으로 학습하는 것으로 보임
      • 이러한 "등장하는 시뮬레이션"은 현재 결함이 있지만 그럼에도 불구하고 흥미로움: 비디오로부터 이러한 월드 모델을 대규모로 훈련시킬 수 있을지도 모른다는 것을 시사함
      • 더욱이, Sora는 액체, 빛의 반사, 직물 및 머리카락 움직임과 같이 매우 복잡한 장면을 시뮬레이션할 수 있는 것으로 보임.
      • OpenAI는 기술 보고서의 제목을 "월드 시뮬레이터로서의 비디오 생성 모델"로 하여, 이를 모델의 가장 중요한 측면으로 여긴다는 것을 분명히 함.
    • 매우 최근에, DeepMind는 비디오 게임의 비디오만으로 훈련함으로써 유사한 효과를 보인 Genie 모델을 시연함: 모델은 이 게임들을 시뮬레이션하는 방법을 학습하고(새로운 것들을 창조함)
      • 이 경우 모델은 직접 관찰하지 않고도 행동에 조건을 부여하는 방법을 학습함
      • 다시 말해, 목표는 이러한 시뮬레이션에서 직접 학습을 가능하게 하는 것임.
    • 두개를 결합하여, Sora와 Genie와 같은 모델이 실제 세계의 작업에서 대규모로 구체화된 에이전트(예: 로보틱스에서)를 훈련시키는 데 매우 유용하게 사용될 수 있을 것으로 봄
    • 하지만 한계가 있음: 이 모델들은 픽셀 공간에서 훈련되기 때문에, 바람이 풀잎을 어떻게 움직이는지와 같은 모든 세부 사항을 모델링하게 되며, 이는 수행 중인 작업에 전혀 관련이 없을 수 있음
    • 잠재 공간은 압축되지만, 픽셀로 다시 매핑할 수 있어야 하므로 많은 정보를 유지해야 하며, 따라서 이 잠재 공간에서 계획이 효율적으로 이루어질 수 있는지는 불분명함

계산 추정치(Compute Estimates)

  • 팩토리얼 펀즈에서는 훈련과 추론에 사용된 계산량을 살펴보는 것을 선호함. 미래에 필요할 계산량의 예측에 정보를 제공할 수 있기 때문에 유용함
  • 하지만, Sora를 훈련시키는 데 사용된 모델 크기와 데이터셋에 대한 세부 사항이 거의 없기 때문에 이러한 수치를 추정하는 것도 어려움
  • 따라서 이 섹션의 추정치는 매우 불확실하므로, 이를 유념하고 참고해야 함
  • (추정치 일뿐이므로, 이 부분은 생략합니다)

 

https://openai.com/sora

 

Sora: Creating video from text

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie m

openai.com

 

https://www.aitimes.kr/news/articleView.html?idxno=30352

 

[AI 리뷰] 생성 인공지능 언어, 이미지 넘어 '영상 생성시대' 열었다! ...오픈AI, 영상 생성 AI '소라'

생성 인공지능(AI) 기술 혁신 속도가 빨라지면서 언어, 이미지를 넘어 동영상(비디오) 개발 경쟁이 달아오르고 있다. 텍스트 입력 시 이미지가 만들어지는 AI는 실사에 가까울 정도로 기술력 수준

www.aitimes.kr

https://factorialfunds.com/blog/under-the-hood-how-openai-s-sora-model-works

 

Factorial Funds | Under The Hood: How OpenAI's Sora Model Works

 

factorialfunds.com

 

728x90
Posted by Mr. Slumber
,