LLM - Meta, SAM 모델 교체 전략

09.경영 2025. 11. 24. 23:58

728x90

Meta가 발표한 SAM (Segment Anything) → SAM 2 → SAM 3의
핵심 특장점(what’s new)과 변경사항(why it matters)을 상세 비교한 정리입니다.
먼저 한줄 요약 → 주요 차이점(아키텍처·프롬프트·데이터·비디오·추가 기능) → 장단점·추천 사용처 → 근거/출처 순으로 제공합니다.

한줄 요약

SAM (2023): 범용 ‘프롬프트 가능한’ 이미지 분할의 출발점 — 포인트/박스/마스크 입력으로 고품질 제로샷 분할을 제공. arXiv+1
SAM 2 (2024): 이미지 → **비디오(시퀀스)**로 확장하고 실시간 처리(스트리밍 메모리), 데이터 엔진으로 대규모 비디오 라벨 수집을 도입해 추적·비디오 분할 성능을 크게 향상. arXiv+1
SAM 3 (2025): 텍스트·시각·시간적 프롬프트를 통합해 감지·추적·텍스트 기반 분할(컨셉 프롬프트) 및 3D 재구성 연계(SAM 3D 등)까지 확장 — 멀티모달·제로샷 활용성 강화. ai.meta.com+1

핵심 비교 (구조적·기능적 변경 중심)

1) 모델 아키텍처 & 인코더

SAM (원본): ViT 기반 이미지 인코더(대규모 ViT-H 등 선택 가능) + 프롬프트 인코더(포인트/박스/마스크) + lightweight mask decoder 구조. 대규모 SA-1B 데이터(11M 이미지, 1.1B mask)로 학습되어 강한 제로샷 성능을 보임. arXiv+1
SAM 2: 비디오에 적합하도록 스트리밍 메모리/트랜스포머 기반 디자인 도입. 인코더가 계층적·시간 정보를 더 잘 처리하도록 개선(논문/코드 기준, 실시간 프레임 핸들링을 위한 메모리 은닉값 유지). 결과적으로 비디오 추적·연속 프레임 분할에서 성능·속도 개선. arXiv+1
SAM 3: SAM2의 실시간·메모리 기반 설계 위에 텍스트-비주얼 통합(concept prompts)과 감지(tracking/detection) 모듈을 결합. 또한 SAM 3D 같은 파생 모델로 단일 이미지에서 3D 재구성을 연결하는 등 멀티태스크 확장 지향. ai.meta.com+1

2) 입력 프롬프트(어떤 방식으로 제어하는가)

SAM: 점(point), 상자(box), 마스크(dense)와 자연어(초기에는 제한적) → 주로 시각적 프롬프트 중심. arXiv
SAM 2: 기존 시각적 프롬프트 계승 + **비디오 프롬프트(시간적 연속성)**를 염두에 둔 인터페이스. 프롬프트 인코더가 시퀀스 정보와 결합되어, 한 번의 프롬프트로 프레임 간 추적 성능 향상. arXiv
SAM 3: **“concept prompts” (텍스트 기반 프롬프트)**를 공식 지원 — 즉 텍스트로 객체/개념을 지정하면 모델이 관련 객체를 검출·분할·추적. 텍스트+시각 프롬프트의 통합이 핵심 변화. ai.meta.com+1

3) 데이터·학습 파이프라인

SAM: SA-1B(11M 이미지, 1.1B mask)로 대규모 일회성 학습. 강력한 제로샷 일반화. arXiv
SAM 2: 모델-인-루프 데이터 엔진을 도입(사용자 상호작용으로 라벨·교정 반복 수집) — 특히 영상용 SA-V 등 비디오 데이터셋 구축을 강조하여 ‘데이터 ↔ 모델’ 개선 사이클을 운영. 이로 인해 비디오 전용 벤치마크에서 성능 향상. arXiv+1
SAM 3: 비주얼-언어 라벨(텍스트 레이블·콘셉트)과 3D 연동 데이터가 중요해짐 — 텍스트-비주얼 정합성 데이터 및 3D 샘플을 포함한 확장된 데이터 파이프라인 지향. ai.meta.com+1

4) 비디오 & 추적 지원

SAM: 이미지 중심, 비디오는 프레임별 처리(연속성 고려 제한적). arXiv
SAM 2: 핵심 개선점 — 스트리밍 메모리로 프레임 간 정보를 유지하고, 실시간 가까운 속도로 분할·추적이 가능. 특히 비디오 세그멘테이션(프레임 일관성)·추적에서 큰 성능 향상. arXiv+1
SAM 3: 비디오 추적 능력을 유지하면서 텍스트로 지시한 객체를 프레임 전체에서 찾아 추적 가능 — 더 자연스러운 ‘텍스트→비디오 분할/추적’ 워크플로우. ai.meta.com

5) 출력·응용(제로샷, 멀티태스크, 3D)

SAM: 강력한 제로샷 이미지 분할(다양한 도메인에서 사용 가능). arXiv
SAM 2: 제로샷을 유지하면서 비디오·인터랙티브 워크플로우에 최적화(데이터 엔진으로 실제 사용 사례에서 모델 개선 가능). arXiv
SAM 3: 제로샷 이미지/비디오 분할에 텍스트-기반 검색·감지·3D 재구성 연계까지 확장 — 예: “find all shipping containers” 같은 텍스트 지시로 검출→분할→(필요하면)3D 재구성 파이프라인으로 연결 가능. ai.meta.com+1

장점 / 단점 비교 요약

SAM (원본)
- 장점: 강력한 제로샷 이미지 분할, 간단한 프롬프트 인터페이스, 소스/데이터 공개로 커뮤니티 확산. arXiv+1
- 단점: 비디오·추적 한계, 텍스트 프롬프트 기능 제한, 대형 ViT 계열 모델의 계산 비용 큼. arXiv
SAM 2
- 장점: 비디오 스트리밍·메모리로 실시간 추적·분할 성능 대폭 향상, 모델-인-루프 데이터 엔진으로 실사용 기반 개선 용이. arXiv+1
- 단점: 아키텍처·데이터 확장으로 모델 복잡도·배포 비용 증가 가능, 실제 도메인 적용 시 추가 파인튜닝/엔지니어링 필요. arXiv
SAM 3
- 장점: 텍스트+비주얼 통합으로 자연어 지시 기반 분할·감지 가능, SAM 3D 등과 결합하면 2D→3D 워크플로우 지원까지 확장. 높은 멀티모달 유연성. ai.meta.com+1
- 단점: 멀티모달 파이프라인은 데이터·라벨링 요구량 증가, 실시간성·경량화 관점에서 추가 최적화 필요. ai.meta.com

실무적 권장 사용처 (간단)

빠른 이미지 분할(프로토타이핑/연구) → SAM. arXiv
비디오 분할·추적(실시간/인터랙티브) → SAM 2(스트리밍 메모리, 데이터-인-루프). arXiv+1
텍스트 기반 검출·분할 / 2D→3D 파이프라인 → SAM 3 / SAM 3D. ai.meta.com+1

구현/배포 시 고려사항

연산 비용: 원본 SAM의 큰 ViT-H 계열은 강력하지만 비용 큼 — MobileSAM 같은 경량화 버전/지식증류 옵션 고려. Ultralytics Docs
도메인 적합성: 의료·위성 등 특수 도메인은 제로샷으로 잘 작동하더라도 도메인 파인튜닝이 필요할 수 있음. (관련 연구·응용 사례 다수). MDPI+1
데이터-인-루프: SAM2의 데이터 엔진 아이디어는 “실사용 데이터를 모아 반복 개선”하는 워크플로우를 권장 — 제품화 시 유용. arXiv

근거·출처 (주요 로드베어링 자료 — 더 읽고 싶으시면 이 순서대로 권장)

Segment Anything (SAM) — 논문 / ICCV 2023 / arXiv. arXiv+1
Meta / GitHub: segment-anything (원본 코드·데모). GitHub
SAM 2 — Meta 블로그 / arXiv (SAM2: Segment Anything in Images and Videos). ai.meta.com+1
SAM 2 — GitHub (facebookresearch/sam2). GitHub
SAM 3 — Meta AI 블로그 & About FB 기사 (SAM 3 / SAM 3D 발표). ai.meta.com+1

새로운 모델이 나왔을 때 기존 모델과의 교체 전략은 어떻게 세울 것인가

한눈 요약

바꿔야 할 가능성(교체 권장): SAM3가 텍스트 기반 감지, 개선된 추적·검출 파이프라인, 2D→3D(공간 점유 추정) 연계 능력을 제공하므로, 만약 운영에서 자연어 질의·객체 컨셉 기반 탐색, 3D 점유/구체적 기반 밀도 추정, 또는 고수준 추적(ID 유지)이 중요하면 SAM3로의 전환 가치가 큽니다. ai.meta.com+1
유지할 가능성(현행 유지 권장): 현재 SAM2가 실시간 처리(스트리밍 메모리)·비디오 연속성 유지·낮은 지연 요건을 충족하고, 자원(서버·GPU) 제약 또는 장기간 안정성/검증이 더 중요하다면 당장은 SAM2를 유지하고 SAM3는 파일럿으로 검증하는 전략이 현실적입니다. ai.meta.com+1

핵심 근거 — 세부 비교 관점별

1) 기능(무엇을 더 할 수 있나)

SAM2 강점: 비디오에 맞춘 ‘스트리밍 메모리’ 아키텍처로 프레임 간 일관성 유지 및 실시간 세그멘테이션에 최적화되어 있습니다 — 즉 연속 영상 기반 사람 검출/마스크 생성에 유리합니다. 실사용 데이터-인-루프(데이터 엔진)로 비디오 데이터셋을 확보·개선하는 설계도 장점입니다. arXiv+1
SAM3 추가 기능: 텍스트 기반 프롬프트로 자연어로 객체/개념을 지정해 검출·분할·추적이 가능하고, SAM 3D처럼 2D→3D 재구성 연계로 공간 점유(깊이·체적)를 추정할 수 있는 파이프라인을 지원합니다. 이는 단순 픽셀 마스크를 넘어서 “공간 내 점유율” 같은 지표 산출에 직접적 이점이 있습니다. ai.meta.com+1

2) 성능(정확도·추적 일관성)

SAM2는 여러 벤치마크에서 강력한 제로샷·비디오 성능을 보였지만, 장시간(긴 시퀀스)에서 메모리 기반 오류 누적(error accumulation) 문제와 같은 한계가 보고되어 있습니다(후속 연구). 즉 긴 카메라 연속 기록에서는 마스크 오류가 누적될 가능성도 있습니다. CVF Open Access+1
SAM3는 텍스트-감지·추적 통합으로 개념 단위의 일관성(“같은 사람/객체”로 인지)을 높일 여지가 있으나, 실제 장기간·복잡한 역환경(조도 변화·광원·많은 가림/중첩)에서의 안정성은 파일럿 검증 필요합니다. ai.meta.com+1

3) 운영·비용(지연·자원·배포)

SAM2는 “비디오 전용 최적화”로 실시간 시스템(저지연) 설계에 익숙한 편입니다. SAM3는 멀티모달(텍스트+비주얼+3D) 확장으로 모델 복잡도·추론 비용과 메모리 요구가 늘어날 가능성이 있어 배포·스케일링 비용이 증가할 수 있습니다. 비용·지연 제약이 크면 즉시 전체 교체는 신중해야 합니다. ai.meta.com+1

4) 응용 관점(혼잡도 산출에 직접적 영향)

카운트 / 밀도 추정은 전통적으로 detection→counting 또는 segmentation 기반 density-map 방법이 사용됩니다. 세그멘테이션 마스크가 정확하고 가려짐/중첩을 잘 처리하면 밀도 추정 정밀도가 올라갑니다. SAM3의 텍스트 기반 탐색은 특정 대상(예: 유모차, 휠체어)을 분리해 더 세분화된 혼잡 분석을 가능하게 하므로, **상세 카테고리별 밀도**를 원하면 유리합니다. 반면 단순 수·밀집도(전체 인원/면적)는 SAM2로도 충분히 구현 가능합니다(추가 후처리·교정 포함). arXiv+1

5) 법적·윤리적·프라이버시

어떤 모델을 쓰든 식별(비식별 처리) 제한, 영상 보존/처리 규정, 익명화 절차가 필수입니다. SAM3가 더 정교한 객체 분류를 제공해도 개인정보보호 규제를 회피해 주지는 않습니다. 운영 변경 시 규제·개인정보 영향평가를 다시 수행해야 합니다.

실무 검증(파일럿) — 계량 체크리스트 (권장 순서)

다음 항목을 동일한 운영 데이터를 사용해 SAM2 vs SAM3로 비교 테스트하세요. 각 항목은 수치화해 결정에 사용합니다.

정확도(픽셀·객체)
- 이미지/프레임 단위 IoU (사람 마스크 평균 IoU) — 목표: 운영 기준(예: IoU ≥ 0.6) 충족 여부. arXiv
- 객체 검출 기반 Precision / Recall (사람 단위 카운팅에 중요).
카운팅 오차
- MAE (Mean Absolute Error)와 MSE(평균제곱오차) — 장면별(플랫폼·열차·승강장 입구)로 측정. (crowd counting 표준 지표). arXiv
추적 일관성(시간적)
- ID 스위치 수(ID switches), 트랙 유지율(Track fragmentation) — 열차 이동/승하차 상황에서 인원 누적 추적 성능. SAM2의 스트리밍 메모리 vs SAM3의 텍스트+추적 성능 비교. CVF Open Access+1
장시간 안정성(누적 오류)
- 긴 시퀀스에서 누적 IoU 저하율, 오류 전파 사례(마스크가 사라진 후 복구 불능 등). SAM2 관련 연구에서 지적된 문제를 확인. CVF Open Access
지연·처리량(운영 요구 충족)
- 프레임 처리율(FPS), end-to-end 지연(전처리→추론→후처리) — 피크 시간대에 필요한 처리량(예: 10대 카메라 × 15FPS) 충족여부 측정.
자원 요구량·비용
- GPU 메모리, inference cost (초/프레임당), 예상 월간 서버 비용 비교.
응용 확장성(텍스트 쿼리, 3D 점유 추정)
- SAM3에서 텍스트 프롬프트로 특정 클래스(유모차/가방 등)를 분리할 때의 정확도.
- 2D→3D(간이 깊이 추정) 연동 시 공간 점유율 산출 오차(장소별 실제 측정과 비교). ai.meta.com

의사결정 플로우(권장)

파일럿 준비: 같은 데이터(대표 카메라·시간대)로 SAM2 vs SAM3(가능하면 동일 프롬프트 정책) 비교 실험 수행. 위 체크리스트의 지표를 1주~2주(또는 표본수 기준) 측정. Roboflow Blog
평가 기준 부여(가중치): 예) 실시간성 30%, 카운팅 MAE 25%, 추적 일관성 20%, 비용 15%, 확장성(3D/text) 10%.
결정:
- SAM3가 총점 우위이면서(특히 확장 기능이 핵심 요구라면) 비용·지연이 허용될 경우 → 교체(또는 하이브리드 전환).
- 성능 차가 미미하거나 운영 안정성/지연·비용 제약이 크면 → SAM2 유지 + SAM3 부분 도입(특정 기능, 예: 텍스트 기반 검색/3D 파일럿).

권장 배포 전략(실무 팁)

단계적 전환: 먼저 비핵심 카메라(테스트 벤치)에서 SAM3 파일럿 → 성능·비용이 확인되면 핵심 시스템에 확장.
하이브리드 아키텍처: 실시간 요구가 큰 파이프라인은 SAM2(저지연)로 유지하고, 배치/분석·3D 연산·자연어 질의는 SAM3로 처리하는 방식 고려.
데이터-인-루프 유지: SAM2에서 쌓아둔 비디오 라벨·데이터 엔진을 SAM3 fine-tune/보정에 재활용하면 전환 비용을 낮출 수 있음. GitHub

리스크 및 주의사항

오탐/미탐: 특유의 밀집·가림·조명 변화에서 모든 세그멘테이션 모델은 오류를 보이므로, 안전 임계(예: 경고 임계값 초과 시 사람 확인 프로세스) 설정 필요.
프라이버시·법규: 얼굴·신체 식별 관련 규제 확인 및 비식별화(aggregation, blur 등) 정책 필수.
장기간 유지보수: SAM3는 신기능이 많으므로 모델 업데이트·버전관리·모니터링 체계를 마련하세요.

참고(주요 출처 — 본 답변의 핵심 근거)

SAM 2 (논문·리서치 페이지) — “Segment Anything Model 2: Segment Anything in Images and Videos” (Meta AI / arXiv). SAM2의 스트리밍 메모리·비디오 데이터 엔진 설명. arXiv+1
SAM2 GitHub / 코드·설명 — facebookresearch/sam2 레포지토리(구성·배포 관점). GitHub
SAM2 장기·한계 연구 — “SAM2Long” 등 분석 논문(장시간 시퀀스에서의 오류 누적 문제 지적). CVF Open Access
SAM3 / SAM 3D 발표 — Meta AI 블로그 및 About FB 기사(텍스트 기반 감지·추적, 3D 재구성 기능 소개). ai.meta.com+1
Crowd counting / density estimation 문헌 — 세그멘테이션 기반 밀도 추정·카운팅 기법이 혼잡도 산출에 사용하는 표준 방법론 설명(서베이 및 응용 논문). arXiv+1