728x90
반응형
Meta가 발표한 SAM (Segment Anything) → SAM 2 → SAM 3의
핵심 특장점(what’s new)과 변경사항(why it matters)을 상세 비교한 정리입니다.
먼저 한줄 요약 → 주요 차이점(아키텍처·프롬프트·데이터·비디오·추가 기능) → 장단점·추천 사용처 → 근거/출처 순으로 제공합니다.
한줄 요약
- SAM (2023): 범용 ‘프롬프트 가능한’ 이미지 분할의 출발점 — 포인트/박스/마스크 입력으로 고품질 제로샷 분할을 제공. arXiv+1
- SAM 2 (2024): 이미지 → **비디오(시퀀스)**로 확장하고 실시간 처리(스트리밍 메모리), 데이터 엔진으로 대규모 비디오 라벨 수집을 도입해 추적·비디오 분할 성능을 크게 향상. arXiv+1
- SAM 3 (2025): 텍스트·시각·시간적 프롬프트를 통합해 감지·추적·텍스트 기반 분할(컨셉 프롬프트) 및 3D 재구성 연계(SAM 3D 등)까지 확장 — 멀티모달·제로샷 활용성 강화. ai.meta.com+1
핵심 비교 (구조적·기능적 변경 중심)
1) 모델 아키텍처 & 인코더
- SAM (원본): ViT 기반 이미지 인코더(대규모 ViT-H 등 선택 가능) + 프롬프트 인코더(포인트/박스/마스크) + lightweight mask decoder 구조. 대규모 SA-1B 데이터(11M 이미지, 1.1B mask)로 학습되어 강한 제로샷 성능을 보임. arXiv+1
- SAM 2: 비디오에 적합하도록 스트리밍 메모리/트랜스포머 기반 디자인 도입. 인코더가 계층적·시간 정보를 더 잘 처리하도록 개선(논문/코드 기준, 실시간 프레임 핸들링을 위한 메모리 은닉값 유지). 결과적으로 비디오 추적·연속 프레임 분할에서 성능·속도 개선. arXiv+1
- SAM 3: SAM2의 실시간·메모리 기반 설계 위에 텍스트-비주얼 통합(concept prompts)과 감지(tracking/detection) 모듈을 결합. 또한 SAM 3D 같은 파생 모델로 단일 이미지에서 3D 재구성을 연결하는 등 멀티태스크 확장 지향. ai.meta.com+1
2) 입력 프롬프트(어떤 방식으로 제어하는가)
- SAM: 점(point), 상자(box), 마스크(dense)와 자연어(초기에는 제한적) → 주로 시각적 프롬프트 중심. arXiv
- SAM 2: 기존 시각적 프롬프트 계승 + **비디오 프롬프트(시간적 연속성)**를 염두에 둔 인터페이스. 프롬프트 인코더가 시퀀스 정보와 결합되어, 한 번의 프롬프트로 프레임 간 추적 성능 향상. arXiv
- SAM 3: **“concept prompts” (텍스트 기반 프롬프트)**를 공식 지원 — 즉 텍스트로 객체/개념을 지정하면 모델이 관련 객체를 검출·분할·추적. 텍스트+시각 프롬프트의 통합이 핵심 변화. ai.meta.com+1
3) 데이터·학습 파이프라인
- SAM: SA-1B(11M 이미지, 1.1B mask)로 대규모 일회성 학습. 강력한 제로샷 일반화. arXiv
- SAM 2: 모델-인-루프 데이터 엔진을 도입(사용자 상호작용으로 라벨·교정 반복 수집) — 특히 영상용 SA-V 등 비디오 데이터셋 구축을 강조하여 ‘데이터 ↔ 모델’ 개선 사이클을 운영. 이로 인해 비디오 전용 벤치마크에서 성능 향상. arXiv+1
- SAM 3: 비주얼-언어 라벨(텍스트 레이블·콘셉트)과 3D 연동 데이터가 중요해짐 — 텍스트-비주얼 정합성 데이터 및 3D 샘플을 포함한 확장된 데이터 파이프라인 지향. ai.meta.com+1
4) 비디오 & 추적 지원
- SAM: 이미지 중심, 비디오는 프레임별 처리(연속성 고려 제한적). arXiv
- SAM 2: 핵심 개선점 — 스트리밍 메모리로 프레임 간 정보를 유지하고, 실시간 가까운 속도로 분할·추적이 가능. 특히 비디오 세그멘테이션(프레임 일관성)·추적에서 큰 성능 향상. arXiv+1
- SAM 3: 비디오 추적 능력을 유지하면서 텍스트로 지시한 객체를 프레임 전체에서 찾아 추적 가능 — 더 자연스러운 ‘텍스트→비디오 분할/추적’ 워크플로우. ai.meta.com
5) 출력·응용(제로샷, 멀티태스크, 3D)
- SAM: 강력한 제로샷 이미지 분할(다양한 도메인에서 사용 가능). arXiv
- SAM 2: 제로샷을 유지하면서 비디오·인터랙티브 워크플로우에 최적화(데이터 엔진으로 실제 사용 사례에서 모델 개선 가능). arXiv
- SAM 3: 제로샷 이미지/비디오 분할에 텍스트-기반 검색·감지·3D 재구성 연계까지 확장 — 예: “find all shipping containers” 같은 텍스트 지시로 검출→분할→(필요하면)3D 재구성 파이프라인으로 연결 가능. ai.meta.com+1
장점 / 단점 비교 요약
- SAM (원본)
- SAM 2
- SAM 3
- 장점: 텍스트+비주얼 통합으로 자연어 지시 기반 분할·감지 가능, SAM 3D 등과 결합하면 2D→3D 워크플로우 지원까지 확장. 높은 멀티모달 유연성. ai.meta.com+1
- 단점: 멀티모달 파이프라인은 데이터·라벨링 요구량 증가, 실시간성·경량화 관점에서 추가 최적화 필요. ai.meta.com
실무적 권장 사용처 (간단)
- 빠른 이미지 분할(프로토타이핑/연구) → SAM. arXiv
- 비디오 분할·추적(실시간/인터랙티브) → SAM 2(스트리밍 메모리, 데이터-인-루프). arXiv+1
- 텍스트 기반 검출·분할 / 2D→3D 파이프라인 → SAM 3 / SAM 3D. ai.meta.com+1
구현/배포 시 고려사항
- 연산 비용: 원본 SAM의 큰 ViT-H 계열은 강력하지만 비용 큼 — MobileSAM 같은 경량화 버전/지식증류 옵션 고려. Ultralytics Docs
- 도메인 적합성: 의료·위성 등 특수 도메인은 제로샷으로 잘 작동하더라도 도메인 파인튜닝이 필요할 수 있음. (관련 연구·응용 사례 다수). MDPI+1
- 데이터-인-루프: SAM2의 데이터 엔진 아이디어는 “실사용 데이터를 모아 반복 개선”하는 워크플로우를 권장 — 제품화 시 유용. arXiv
근거·출처 (주요 로드베어링 자료 — 더 읽고 싶으시면 이 순서대로 권장)
- Segment Anything (SAM) — 논문 / ICCV 2023 / arXiv. arXiv+1
- Meta / GitHub: segment-anything (원본 코드·데모). GitHub
- SAM 2 — Meta 블로그 / arXiv (SAM2: Segment Anything in Images and Videos). ai.meta.com+1
- SAM 2 — GitHub (facebookresearch/sam2). GitHub
- SAM 3 — Meta AI 블로그 & About FB 기사 (SAM 3 / SAM 3D 발표). ai.meta.com+1
새로운 모델이 나왔을 때 기존 모델과의 교체 전략은 어떻게 세울 것인가
한눈 요약
- 바꿔야 할 가능성(교체 권장): SAM3가 텍스트 기반 감지, 개선된 추적·검출 파이프라인, 2D→3D(공간 점유 추정) 연계 능력을 제공하므로, 만약 운영에서 자연어 질의·객체 컨셉 기반 탐색, 3D 점유/구체적 기반 밀도 추정, 또는 고수준 추적(ID 유지)이 중요하면 SAM3로의 전환 가치가 큽니다. ai.meta.com+1
- 유지할 가능성(현행 유지 권장): 현재 SAM2가 실시간 처리(스트리밍 메모리)·비디오 연속성 유지·낮은 지연 요건을 충족하고, 자원(서버·GPU) 제약 또는 장기간 안정성/검증이 더 중요하다면 당장은 SAM2를 유지하고 SAM3는 파일럿으로 검증하는 전략이 현실적입니다. ai.meta.com+1
핵심 근거 — 세부 비교 관점별
1) 기능(무엇을 더 할 수 있나)
- SAM2 강점: 비디오에 맞춘 ‘스트리밍 메모리’ 아키텍처로 프레임 간 일관성 유지 및 실시간 세그멘테이션에 최적화되어 있습니다 — 즉 연속 영상 기반 사람 검출/마스크 생성에 유리합니다. 실사용 데이터-인-루프(데이터 엔진)로 비디오 데이터셋을 확보·개선하는 설계도 장점입니다. arXiv+1
- SAM3 추가 기능: 텍스트 기반 프롬프트로 자연어로 객체/개념을 지정해 검출·분할·추적이 가능하고, SAM 3D처럼 2D→3D 재구성 연계로 공간 점유(깊이·체적)를 추정할 수 있는 파이프라인을 지원합니다. 이는 단순 픽셀 마스크를 넘어서 “공간 내 점유율” 같은 지표 산출에 직접적 이점이 있습니다. ai.meta.com+1
2) 성능(정확도·추적 일관성)
- SAM2는 여러 벤치마크에서 강력한 제로샷·비디오 성능을 보였지만, 장시간(긴 시퀀스)에서 메모리 기반 오류 누적(error accumulation) 문제와 같은 한계가 보고되어 있습니다(후속 연구). 즉 긴 카메라 연속 기록에서는 마스크 오류가 누적될 가능성도 있습니다. CVF Open Access+1
- SAM3는 텍스트-감지·추적 통합으로 개념 단위의 일관성(“같은 사람/객체”로 인지)을 높일 여지가 있으나, 실제 장기간·복잡한 역환경(조도 변화·광원·많은 가림/중첩)에서의 안정성은 파일럿 검증 필요합니다. ai.meta.com+1
3) 운영·비용(지연·자원·배포)
- SAM2는 “비디오 전용 최적화”로 실시간 시스템(저지연) 설계에 익숙한 편입니다. SAM3는 멀티모달(텍스트+비주얼+3D) 확장으로 모델 복잡도·추론 비용과 메모리 요구가 늘어날 가능성이 있어 배포·스케일링 비용이 증가할 수 있습니다. 비용·지연 제약이 크면 즉시 전체 교체는 신중해야 합니다. ai.meta.com+1
4) 응용 관점(혼잡도 산출에 직접적 영향)
- 카운트 / 밀도 추정은 전통적으로 detection→counting 또는 segmentation 기반 density-map 방법이 사용됩니다. 세그멘테이션 마스크가 정확하고 가려짐/중첩을 잘 처리하면 밀도 추정 정밀도가 올라갑니다. SAM3의 텍스트 기반 탐색은 특정 대상(예: 유모차, 휠체어)을 분리해 더 세분화된 혼잡 분석을 가능하게 하므로, **상세 카테고리별 밀도**를 원하면 유리합니다. 반면 단순 수·밀집도(전체 인원/면적)는 SAM2로도 충분히 구현 가능합니다(추가 후처리·교정 포함). arXiv+1
5) 법적·윤리적·프라이버시
- 어떤 모델을 쓰든 식별(비식별 처리) 제한, 영상 보존/처리 규정, 익명화 절차가 필수입니다. SAM3가 더 정교한 객체 분류를 제공해도 개인정보보호 규제를 회피해 주지는 않습니다. 운영 변경 시 규제·개인정보 영향평가를 다시 수행해야 합니다.
실무 검증(파일럿) — 계량 체크리스트 (권장 순서)
다음 항목을 동일한 운영 데이터를 사용해 SAM2 vs SAM3로 비교 테스트하세요. 각 항목은 수치화해 결정에 사용합니다.
- 정확도(픽셀·객체)
- 이미지/프레임 단위 IoU (사람 마스크 평균 IoU) — 목표: 운영 기준(예: IoU ≥ 0.6) 충족 여부. arXiv
- 객체 검출 기반 Precision / Recall (사람 단위 카운팅에 중요).
- 카운팅 오차
- MAE (Mean Absolute Error)와 MSE(평균제곱오차) — 장면별(플랫폼·열차·승강장 입구)로 측정. (crowd counting 표준 지표). arXiv
- 추적 일관성(시간적)
- ID 스위치 수(ID switches), 트랙 유지율(Track fragmentation) — 열차 이동/승하차 상황에서 인원 누적 추적 성능. SAM2의 스트리밍 메모리 vs SAM3의 텍스트+추적 성능 비교. CVF Open Access+1
- 장시간 안정성(누적 오류)
- 긴 시퀀스에서 누적 IoU 저하율, 오류 전파 사례(마스크가 사라진 후 복구 불능 등). SAM2 관련 연구에서 지적된 문제를 확인. CVF Open Access
- 지연·처리량(운영 요구 충족)
- 프레임 처리율(FPS), end-to-end 지연(전처리→추론→후처리) — 피크 시간대에 필요한 처리량(예: 10대 카메라 × 15FPS) 충족여부 측정.
- 자원 요구량·비용
- GPU 메모리, inference cost (초/프레임당), 예상 월간 서버 비용 비교.
- 응용 확장성(텍스트 쿼리, 3D 점유 추정)
- SAM3에서 텍스트 프롬프트로 특정 클래스(유모차/가방 등)를 분리할 때의 정확도.
- 2D→3D(간이 깊이 추정) 연동 시 공간 점유율 산출 오차(장소별 실제 측정과 비교). ai.meta.com
의사결정 플로우(권장)
- 파일럿 준비: 같은 데이터(대표 카메라·시간대)로 SAM2 vs SAM3(가능하면 동일 프롬프트 정책) 비교 실험 수행. 위 체크리스트의 지표를 1주~2주(또는 표본수 기준) 측정. Roboflow Blog
- 평가 기준 부여(가중치): 예) 실시간성 30%, 카운팅 MAE 25%, 추적 일관성 20%, 비용 15%, 확장성(3D/text) 10%.
- 결정:
- SAM3가 총점 우위이면서(특히 확장 기능이 핵심 요구라면) 비용·지연이 허용될 경우 → 교체(또는 하이브리드 전환).
- 성능 차가 미미하거나 운영 안정성/지연·비용 제약이 크면 → SAM2 유지 + SAM3 부분 도입(특정 기능, 예: 텍스트 기반 검색/3D 파일럿).
권장 배포 전략(실무 팁)
- 단계적 전환: 먼저 비핵심 카메라(테스트 벤치)에서 SAM3 파일럿 → 성능·비용이 확인되면 핵심 시스템에 확장.
- 하이브리드 아키텍처: 실시간 요구가 큰 파이프라인은 SAM2(저지연)로 유지하고, 배치/분석·3D 연산·자연어 질의는 SAM3로 처리하는 방식 고려.
- 데이터-인-루프 유지: SAM2에서 쌓아둔 비디오 라벨·데이터 엔진을 SAM3 fine-tune/보정에 재활용하면 전환 비용을 낮출 수 있음. GitHub
리스크 및 주의사항
- 오탐/미탐: 특유의 밀집·가림·조명 변화에서 모든 세그멘테이션 모델은 오류를 보이므로, 안전 임계(예: 경고 임계값 초과 시 사람 확인 프로세스) 설정 필요.
- 프라이버시·법규: 얼굴·신체 식별 관련 규제 확인 및 비식별화(aggregation, blur 등) 정책 필수.
- 장기간 유지보수: SAM3는 신기능이 많으므로 모델 업데이트·버전관리·모니터링 체계를 마련하세요.
추천 결론(요약형)
- 당장 바꾸지 말아야 할 경우: 현재 시스템이 실시간 처리를 안정적으로 수행하고, “단순 인원수/밀도”가 주 목적이며, 인프라(지연·비용) 제약이 크다면 SAM2 유지 + SAM3 파일럿(하이브리드) 권장. ai.meta.com+1
- 바꿀 만한 근거가 충분한 경우: 자연어 기반 운영(운영자 질의 «어린이 많은 칸»), 카테고리별 밀도(수하물/유모차 등) 분리, 3D 공간 점유 추정이 필요하고 예산·지연 요건을 충족한다면 SAM3로 전환(또는 단계적 전개) 권장. ai.meta.com+1
참고(주요 출처 — 본 답변의 핵심 근거)
- SAM 2 (논문·리서치 페이지) — “Segment Anything Model 2: Segment Anything in Images and Videos” (Meta AI / arXiv). SAM2의 스트리밍 메모리·비디오 데이터 엔진 설명. arXiv+1
- SAM2 GitHub / 코드·설명 — facebookresearch/sam2 레포지토리(구성·배포 관점). GitHub
- SAM2 장기·한계 연구 — “SAM2Long” 등 분석 논문(장시간 시퀀스에서의 오류 누적 문제 지적). CVF Open Access
- SAM3 / SAM 3D 발표 — Meta AI 블로그 및 About FB 기사(텍스트 기반 감지·추적, 3D 재구성 기능 소개). ai.meta.com+1
- Crowd counting / density estimation 문헌 — 세그멘테이션 기반 밀도 추정·카운팅 기법이 혼잡도 산출에 사용하는 표준 방법론 설명(서베이 및 응용 논문). arXiv+1

728x90
'09.경영' 카테고리의 다른 글
| 비즈니스 - de alio/de novo (0) | 2025.05.03 |
|---|---|
| 생성형 AI - 산업 생태계 (0) | 2025.04.27 |
| 경영전략 - CRM - 데이터 기반 마케팅과 고객 관계 관리(CRM)의 현재와 미래 전략 (1) | 2024.12.30 |
| RevOps (Revenue Operations) (1) | 2024.12.23 |
| 미래예측 기법 - 윈드 터널링(wind-tunnelling) (2) | 2024.10.31 |


