07.AI

생성형 AI - 월드 모델 (World Model) - 공간 지능(Spatial Intelligence)

Mr. Slumber 2025. 11. 16. 23:46
728x90
반응형

(개념) AI가 현실 세계를 관찰하고, 이해하며, 나아가 구축할 수 있는 능력

- AI가 환경을 내부적으로 이해하고 예측할 수 있도록 세계의 디지털 표현체(Digital Representation)를 생성하는 시스템

- 단순히 이미지를 생성하는 것을 넘어, AI가 미래의 행동을 계획하거나 다양한 시뮬레이션을 수행하는 데 활용가능

 

기존의 월드 모델 연구는 AI가 탐색 과정에서 실시간으로 세계를 생성하는 방식이었으나, 이 방식은 생성된 세계의 일관성이 떨어지는 문제가 발생함. 
이를 개선하기 위한 월드랩스(WorldLabs) 의 마블(Marble)  모델을 제시하여 텍스트, 사진, 동영상, 3D 설계도 등 다양한 입력을 기반으로 편집 가능한 3D 환경을 생성하는 기술을 제시함

 

월드랩스(WorldLabs) 의 마블(Marble)  모델

 

From reactive to cognitive: brain-inspired spatial intelligence for embodied agents, https://arxiv.org/pdf/2508.17198

 

 

 

 

공간 지능(Spatial Intelligence)은 세 가지 핵심 원리를 기반으로 구축된 월드 모델(World Model)에 의존

  • 생성적(Generative)이어야 합니다 — 물리적으로 일관된 시뮬레이션 세계를 스스로 만들어낼 수 있어야 합니다.
  • 멀티모달(Multimodal)이어야 합니다 — 이미지, 텍스트, 행동 등 다양한 입력을 이해하고 반응할 수 있어야 합니다.
  • 상호작용적(Interactive)이어야 합니다 — 행동이나 목표에 따라 세상이 어떻게 변하는지를 예측할 수 있어야 합니다.
    1. “공간 지능(Spatial Intelligence)”이란 무엇인가
      • Fei-Fei Li는 현재 AI의 많은 강점이 언어 중심(LLM)에 있지만, 진정한 지능의 다음 경계는 3차원 공간을 이해하고 조작하는 능력이라고 봅니다. drfeifei.substack.com+2a16z.substack.com+2
      • 공간 지능은 단순한 시각(seeing)을 넘어, **추론(reasoning)**하고 **행동(action)**하며, **상상(imagination)**할 수 있는 능력입니다. 36kr+2Neural Pulse+2
      • 이 능력은 인간 인지의 골격(scaffolding)으로 작동하며, 우리 일상 행동(예: 물건 잡기, 주차, 장애물 회피 등)뿐 아니라 창의성, 학습, 상호작용에도 핵심적인 기반이 됩니다. HowAIWorks.ai+1
    2. 현재 AI 한계: 말은 잘하지만 세상은 잘 모른다
      • 지금의 대형 언어 모델(LLM)은 텍스트에서 탁월하지만, 물리적 현실, 특히 3D 세계를 “감각하고 이해하는 능력”이 부족합니다. AI Sparkup+1
      • 예컨대, 거리, 방향, 물체의 크기나 회전 같은 기본적인 공간적 관계를 AI가 ‘마음속으로’ 재구성하거나 예측하는 데 한계가 있다는 지적이 있습니다. HowAIWorks.ai
      • 또한, 시뮬레이션된 영상이나 생성된 장면조차 오래 지속되면 일관성이 무너지는 경우도 많다는 언급이 있습니다. AI Sparkup
    3. “월드 모델(World Model)”의 필요성
      • Fei-Fei Li는 공간 지능을 실현하는 AI를 구축하기 위해 월드 모델(world models) 이라는 개념이 필요하다고 주장합니다. drfeifei.substack.com
      • 이 월드 모델은 단순한 정적인 이미지 생성이 아니라, **물리적 일관성(기하학 + 물리 규칙)**을 갖춘 세계를 생성하고, 다양한 모달리티(텍스트, 이미지, 행동 입력 등)를 통합하며, **행동에 따라 변화하는 세계를 예측(predict)**할 수 있어야 합니다. 다음+2유니콘팩토리+2
      • Li는 이 모델이 세 가지 핵심 능력을 갖춰야 한다고 말합니다:
        1. 창조성 (Generativity) — 이야기를 만들어내듯 세계를 생성
        2. 상호작용성 (Interactivity) — 행동에 반응하고 변화하는 세계를 다룸
        3. 멀티모달 (Multimodality) — 텍스트, 이미지, 행동 등 다양한 신호를 이해하고 처리 다음+2a16z.substack.com+2
    4. Fei-Fei Li의 여정과 비전
      • 그녀는 자신의 경력 전반에 걸쳐 시각 지능과 공간 지능을 중요한 북극성(North Star)으로 삼아 왔습니다. 예컨대, ImageNet의 개발은 시각 학습의 기틀을 마련한 대표적 기여입니다. 36kr
      • 현재 그녀는 World Labs라는 회사를 설립해, 공간 지능을 가진 월드 모델을 현실화하려는 노력을 이끌고 있습니다. a16z.substack.com+2X (formerly Twitter)+2
      • 장기적 응용 가능성으로는, 스토리텔링(예: 가상 세계 생성), 로봇(공간을 인지하고 조작), 과학 연구 등이 있으며, 이를 통해 AI는 단순한 텍스트 생성 도구를 넘어 진정한 동반자(point of co-creation)가 될 수 있다는 전망입니다. HowAIWorks.ai+236kr+2
      • 그녀는 또한, 공간 지능을 가진 AI가 인간을 대체하는 것이 아니라 **인간의 능력을 확장(augment)**하는 방향으로 개발돼야 한다고 강조합니다. AI Sparkup+2유니콘팩토리+2
    5. 세계 최초의 상용 월드 모델, '마블(Marble)'의 특징
      • 1) 지속적이고 다운로드 가능한 3D 환경 구축 마블의 가장 큰 차별점은 '지속적이고 다운로드 가능한 3D 환경'을 구축할 수 있다는 것입니다. 이는 실시간 생성 방식에서 발생하는 변형이나 불일치를 최소화합니다. 사용자는 완성된 3D 환경을 메쉬(Mesh), 비디오, 가우시안 스플랫(Gaussian Splat) 등 다양한 표준 형식으로 출력하여 실제 제작 환경에 바로 적용할 수 있습니다.
      • 2) 세계 최초의 AI 편집 기능과 하이브리드 3D 에디터 마블은 월드 모델 중 최초로 AI 편집 기능과 하이브리드 3D 에디터를 제공합니다. 이는 AI가 일방적으로 결과를 생성하는 것이 아니라, 사용자가 창의적인 통제권을 유지할 수 있도록 설계되었습니다.
      • 저스틴 존슨 월드랩스 공동 창립자는 이 과정을 "HTML로 구조를 만들고 CSS로 스타일을 입히는 과정과 유사하다"라고 설명했습니다.
      • 3) 확장 및 결합이 가능한 '컴포저 모드(Composer Mode)' 사용자는 생성된 세계의 일부를 확장하거나, 여러 개의 세계를 하나로 합쳐 거대한 공간을 구축할 수 있습니다. 이 '컴포저 모드'를 통해 더욱 복잡하고 광범위한 3D 환경 제작이 가능해집니다.
  1. 기술적·사회적 도전 과제
    • 공간 지능 모델을 구축하는 데 있어 가장 큰 어려움 중 하나는 데이터입니다. 3D 데이터, 물리 시뮬레이션, 동작 데이터 등은 언어 데이터만큼 체계적이거나 방대하지 않다는 지적이 나옵니다. 36kr
    • 또한, 공간 모델이 현실 세계의 법칙(중력, 충돌, 물리적 제약 등)을 얼마나 잘 학습하고 재현할 수 있을지도 중요한 기술적 과제입니다. 36kr
    • 윤리적·사회적 관점에서도 고려할 점이 있습니다. 예컨대, 공간 지능 AI가 설계, 건축, 로봇 등 실제 환경에 깊숙이 개입할 수 있기 때문에 책임, 안전, 프라이버시 문제 등이 중요합니다.
  2. 미래 전망
    • Li는 앞으로 공간 지능 기반 AI가 AI의 다음 “챗GPT 순간”이 될 것이라고 말합니다. SBS 뉴스
    • 특히, 몰입형 콘텐츠(메타버스, VR), 창작, 로봇공학, 교육, 과학 연구 등 다양한 분야에서 혁신을 이끌 수 있으며, AI와 인간이 함께 세계를 구축하는 새로운 패러다임이 열릴 가능성이 큽니다. 36kr+1
    • 그녀는 AI 생태계가 단지 기술자나 기업만의 것이 아니라, 예술가, 교육자, 일반 시민 모두가 참여하는 “세계 건설자(world builder)” 공동체로 발전할 수 있기를 희망합니다. 36kr

해석의 의미 & 시사점

  • Fei-Fei Li의 이 글은 단순한 기술 제안이 아니라 AI의 패러다임 전환 선언문으로 볼 수 있습니다.
  • 현재의 언어 중심 모델 시대를 넘어서, “공간 중심(world-centric)” 모델로 이동하는 것이 그녀가 보는 미래 AI의 핵심 축입니다.
  • 만약 이런 비전이 실현된다면, AI는 단순한 정보 처리자가 아니라 상호작용하고 창조하는 파트너로 변화할 수 있습니다.
  • 다만, 기술 구현 측면에서의 어려움과, 사회적 책임 문제는 매우 크기 때문에 이 분야의 발전은 신중하고 체계적인 접근이 필요합니다.

https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

https://www.thesnstime.com/aiyi-daeum-jinhwaneun-gonggan-jineung-malhagi-neomeo-bogo-ihaehagiro/

https://news.hada.io/topic?id=24304

https://aisparkup.com/posts/6457

728x90