기존 설명가능한 AI(XAI)가 주로 입력–출력 수준의 국소적 설명(분할정복 전략(divide-and-conquer strategy))에 머무르는 반면 , 본 논문은 AI를 하나의 인공적 계산 기계(mechanism)로 간주하고 그 내부 조직과 인과 구조를 이해해야 한다고 주장한다.
개별 예측이나 특정 맥락에서의 설명에는 효과적이지만, AI 시스템이 전체적으로 어떻게 작동하는지에 대한 기능적 이해를 제공하지 못한다고 비판합니다. 특히 안전성(safety)과 같은 중요한 사회적 요구사항을 충족하기 위해서는 생명과학에서 사용되는 **조율된 발견 전략(coordinated discovery strategies)**을 AI 연구에 적용해야 한다고 주장합니다.
분할정복 전략(divide-and-conquer strategy)
에서
조율된 발견 전략(coordinated discovery strategies)
으로
분할정복 전략(divide-and-conquer strategy) 의 한계
- 모델 전체가 어떤 기능적 조직을 갖고 있는지 설명하지 못함
- 새로운 상황에서의 행동 예측이나 통제에 취약
- AI 안전성(safety), 신뢰성(trustworthiness)과 같은 사회적 요구 충족에 한계
이에 대해 저자들은 생명과학(특히 신경과학, 분자생물학)에서 사용되어 온 조율된 발견 전략(coordinated discovery strategies)—기능 분해, 위치화, 인과적 개입—을 AI 연구에 도입해야 한다고 주장한다.
기계론적 해석가능성의 정의
(정의) 신경망 내부의 계산 메커니즘과 표현을 인간이 이해 가능한 알고리즘적·인과적 구성요소로 역공학(reverse engineering)하는 접근법
이는 단순한 설명을 넘어 다음을 목표로 한다.
- 내부 계산 경로의 인과적 이해
- 기능적 구성 요소 간 상호작용 파악
- 모델 행동의 예측 및 조정 가능성 확보

특징(Features)
정의
특징은 신경망 활성화 공간에서 의미를 담고 있는 기본 표현 단위이다. 단어, 개념, 규칙, 추상적 속성 등이 특징으로 인코딩된다.
핵심 문제: 다중의미성(Polysemanticity)
하나의 뉴런이나 차원이 여러 무관한 개념을 동시에 표현하는 현상.
중첩 가설(Superposition Hypothesis)
Elhage et al. (2022)의 Toy Models of Superposition 연구는 다음을 보였다.
- 신경망은 제한된 차원 수로 훨씬 많은 특징을 저장
- 특징들은 희소(sparse)하지만 중첩된 형태로 표현됨
- 이 구조가 균일 다면체(uniform polytope)와 유사한 기하학적 성질을 가짐
- 적대적 예제(adversarial examples)의 근본 원인과 연결됨
회로(Circuits)
정의
회로는 특정 기능을 수행하기 위해 조직된 여러 특징·뉴런·어텐션 헤드의 집합적 계산 경로이다.
목표
- 입력에서 출력으로 이어지는 내부 계산 흐름 추적
- 기능 단위 수준에서 모델 이해
이론적 토대: 인과 추상화
Geiger et al. (2025) – Causal Abstraction
- 고수준 개념과 저수준 신경 연산 사이의 인과적 대응 관계를 정식화
- 활성화 패칭, 경로 패칭과 같은 개입 기법의 이론적 근거 제공
- 인과 중재 분석(causal mediation analysis)을 통해 메커니즘 검증
희소 오토인코더(Sparse Autoencoders, SAEs)
기본 원리
- 딕셔너리 학습(dictionary learning)을 통해 활성화를 해석 가능한 특징으로 분해
- 희소성 제약으로 각 특징이 명확한 의미를 갖도록 유도
주요 연구
| 연구 | 기여 | 비고 |
| Cunningham et al., 2023 | LLM에서 고도로 해석 가능한 특징 발견 | 639회 인용 |
| Rajamanoharan et al., 2024 | Gated SAE로 성능 개선 | 112회 인용 |
| Mudide et al., 2024 | Switch SAE로 계산 효율 대폭 향상 | 최신 |
회로 분석 방법
1 인덕션 헤드(Induction Heads)
Olsson et al., 2022 – In-context learning and induction heads
- 트랜스포머의 맥락 내 학습 능력을 인덕션 헤드 메커니즘으로 설명
- 이전 토큰 헤드 + 인덕션 헤드의 협력 구조 규명
- 기계론적 해석가능성의 대표적 성공 사례
2 자동화된 회로 발견
Conmy et al., 2023 – Towards automated circuit discovery
- 회로 발견 과정의 자동화
- 추상 신경망 단위 간 연결을 알고리즘적으로 식별
인과적 개입 기법
활성화 패칭(Activation Patching)
- 특정 활성화를 다른 맥락의 활성화로 교체
- 인과 효과를 직접 측정 (causal tracing)
비판
- Makelov et al. (2023): 부분공간 패칭이 해석가능성 착시를 유발할 수 있음
4. 산업계 응용 사례
4.1 Anthropic: Scaling Monosemanticity (2024)
Claude 3 Sonnet 분석의 의의
- 최초의 프로덕션급 대형 언어 모델 내부 대규모 해석
- 수백만 개의 해석 가능한 특징 발견
특징 유형 요약
| 범주 | 예시 |
| 구체적 개체 | 도시, 인물, 원소 |
| 추상 개념 | 내적 갈등, 편향, 논리 모순 |
| 안전 관련 | 스캠, 생물무기, 권력 추구 |
| 다중모달 | 언어·이미지 공통 반응 |
특징 조작 실험은 회로 편집을 통한 모델 행동 제어 가능성을 실증함.
https://link.springer.com/article/10.1007/s13194-024-00614-4
'07.AI' 카테고리의 다른 글
| 인공지능 - 안전성 - ISO/IEC JTC 1/SC 42 (0) | 2025.12.22 |
|---|---|
| 생성형 AI - 금융 - 사람 중심의 AI 금융 추진 전략 (1) | 2025.12.20 |
| 인공지능 - 해석력 - LLM의 기계적 해석가능성 : 블랙박스에서 투명한 AI로 (0) | 2025.12.20 |
| 딥러닝 - 오토 인코더 (Auto Encoder) - 희소 오토인코더 (Sparse Autoencoder, SAE) (0) | 2025.12.19 |
| LLM - Open AI, GPT-2 (0) | 2025.12.19 |


