생성형 AI - 월드 모델 (World Model) - 공간 지능(Spatial Intelligence)
(개념) AI가 현실 세계를 관찰하고, 이해하며, 나아가 구축할 수 있는 능력
- AI가 환경을 내부적으로 이해하고 예측할 수 있도록 세계의 디지털 표현체(Digital Representation)를 생성하는 시스템
- 단순히 이미지를 생성하는 것을 넘어, AI가 미래의 행동을 계획하거나 다양한 시뮬레이션을 수행하는 데 활용가능
기존의 월드 모델 연구는 AI가 탐색 과정에서 실시간으로 세계를 생성하는 방식이었으나, 이 방식은 생성된 세계의 일관성이 떨어지는 문제가 발생함.
이를 개선하기 위한 월드랩스(WorldLabs) 의 마블(Marble) 모델을 제시하여 텍스트, 사진, 동영상, 3D 설계도 등 다양한 입력을 기반으로 편집 가능한 3D 환경을 생성하는 기술을 제시함


공간 지능(Spatial Intelligence)은 세 가지 핵심 원리를 기반으로 구축된 월드 모델(World Model)에 의존
- 생성적(Generative)이어야 합니다 — 물리적으로 일관된 시뮬레이션 세계를 스스로 만들어낼 수 있어야 합니다.
- 멀티모달(Multimodal)이어야 합니다 — 이미지, 텍스트, 행동 등 다양한 입력을 이해하고 반응할 수 있어야 합니다.
- 상호작용적(Interactive)이어야 합니다 — 행동이나 목표에 따라 세상이 어떻게 변하는지를 예측할 수 있어야 합니다.
- “공간 지능(Spatial Intelligence)”이란 무엇인가
- Fei-Fei Li는 현재 AI의 많은 강점이 언어 중심(LLM)에 있지만, 진정한 지능의 다음 경계는 3차원 공간을 이해하고 조작하는 능력이라고 봅니다. drfeifei.substack.com+2a16z.substack.com+2
- 공간 지능은 단순한 시각(seeing)을 넘어, **추론(reasoning)**하고 **행동(action)**하며, **상상(imagination)**할 수 있는 능력입니다. 36kr+2Neural Pulse+2
- 이 능력은 인간 인지의 골격(scaffolding)으로 작동하며, 우리 일상 행동(예: 물건 잡기, 주차, 장애물 회피 등)뿐 아니라 창의성, 학습, 상호작용에도 핵심적인 기반이 됩니다. HowAIWorks.ai+1
- 현재 AI 한계: 말은 잘하지만 세상은 잘 모른다
- 지금의 대형 언어 모델(LLM)은 텍스트에서 탁월하지만, 물리적 현실, 특히 3D 세계를 “감각하고 이해하는 능력”이 부족합니다. AI Sparkup+1
- 예컨대, 거리, 방향, 물체의 크기나 회전 같은 기본적인 공간적 관계를 AI가 ‘마음속으로’ 재구성하거나 예측하는 데 한계가 있다는 지적이 있습니다. HowAIWorks.ai
- 또한, 시뮬레이션된 영상이나 생성된 장면조차 오래 지속되면 일관성이 무너지는 경우도 많다는 언급이 있습니다. AI Sparkup
- “월드 모델(World Model)”의 필요성
- Fei-Fei Li는 공간 지능을 실현하는 AI를 구축하기 위해 월드 모델(world models) 이라는 개념이 필요하다고 주장합니다. drfeifei.substack.com
- 이 월드 모델은 단순한 정적인 이미지 생성이 아니라, **물리적 일관성(기하학 + 물리 규칙)**을 갖춘 세계를 생성하고, 다양한 모달리티(텍스트, 이미지, 행동 입력 등)를 통합하며, **행동에 따라 변화하는 세계를 예측(predict)**할 수 있어야 합니다. 다음+2유니콘팩토리+2
- Li는 이 모델이 세 가지 핵심 능력을 갖춰야 한다고 말합니다:
- 창조성 (Generativity) — 이야기를 만들어내듯 세계를 생성
- 상호작용성 (Interactivity) — 행동에 반응하고 변화하는 세계를 다룸
- 멀티모달 (Multimodality) — 텍스트, 이미지, 행동 등 다양한 신호를 이해하고 처리 다음+2a16z.substack.com+2
- Fei-Fei Li의 여정과 비전
- 그녀는 자신의 경력 전반에 걸쳐 시각 지능과 공간 지능을 중요한 북극성(North Star)으로 삼아 왔습니다. 예컨대, ImageNet의 개발은 시각 학습의 기틀을 마련한 대표적 기여입니다. 36kr
- 현재 그녀는 World Labs라는 회사를 설립해, 공간 지능을 가진 월드 모델을 현실화하려는 노력을 이끌고 있습니다. a16z.substack.com+2X (formerly Twitter)+2
- 장기적 응용 가능성으로는, 스토리텔링(예: 가상 세계 생성), 로봇(공간을 인지하고 조작), 과학 연구 등이 있으며, 이를 통해 AI는 단순한 텍스트 생성 도구를 넘어 진정한 동반자(point of co-creation)가 될 수 있다는 전망입니다. HowAIWorks.ai+236kr+2
- 그녀는 또한, 공간 지능을 가진 AI가 인간을 대체하는 것이 아니라 **인간의 능력을 확장(augment)**하는 방향으로 개발돼야 한다고 강조합니다. AI Sparkup+2유니콘팩토리+2
- 세계 최초의 상용 월드 모델, '마블(Marble)'의 특징
-
- 1) 지속적이고 다운로드 가능한 3D 환경 구축 마블의 가장 큰 차별점은 '지속적이고 다운로드 가능한 3D 환경'을 구축할 수 있다는 것입니다. 이는 실시간 생성 방식에서 발생하는 변형이나 불일치를 최소화합니다. 사용자는 완성된 3D 환경을 메쉬(Mesh), 비디오, 가우시안 스플랫(Gaussian Splat) 등 다양한 표준 형식으로 출력하여 실제 제작 환경에 바로 적용할 수 있습니다.
- 2) 세계 최초의 AI 편집 기능과 하이브리드 3D 에디터 마블은 월드 모델 중 최초로 AI 편집 기능과 하이브리드 3D 에디터를 제공합니다. 이는 AI가 일방적으로 결과를 생성하는 것이 아니라, 사용자가 창의적인 통제권을 유지할 수 있도록 설계되었습니다.
- 저스틴 존슨 월드랩스 공동 창립자는 이 과정을 "HTML로 구조를 만들고 CSS로 스타일을 입히는 과정과 유사하다"라고 설명했습니다.
- 3) 확장 및 결합이 가능한 '컴포저 모드(Composer Mode)' 사용자는 생성된 세계의 일부를 확장하거나, 여러 개의 세계를 하나로 합쳐 거대한 공간을 구축할 수 있습니다. 이 '컴포저 모드'를 통해 더욱 복잡하고 광범위한 3D 환경 제작이 가능해집니다.
- 기술적·사회적 도전 과제
- 미래 전망
해석의 의미 & 시사점
- Fei-Fei Li의 이 글은 단순한 기술 제안이 아니라 AI의 패러다임 전환 선언문으로 볼 수 있습니다.
- 현재의 언어 중심 모델 시대를 넘어서, “공간 중심(world-centric)” 모델로 이동하는 것이 그녀가 보는 미래 AI의 핵심 축입니다.
- 만약 이런 비전이 실현된다면, AI는 단순한 정보 처리자가 아니라 상호작용하고 창조하는 파트너로 변화할 수 있습니다.
- 다만, 기술 구현 측면에서의 어려움과, 사회적 책임 문제는 매우 크기 때문에 이 분야의 발전은 신중하고 체계적인 접근이 필요합니다.
https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
https://www.thesnstime.com/aiyi-daeum-jinhwaneun-gonggan-jineung-malhagi-neomeo-bogo-ihaehagiro/