728x90
반응형
(개념) 인공지능이 인간의 가치, 의도, 윤리, 사회적 목표와 일치하도록 설계·운용하는 연구 분야
- AI alignment의 목적은 AI가 인간의 목표를 벗어나서 오작동하거나 예기치 않은 결과(예: 보상 해킹)를 일으키지 않도록 하는 것이다. 즉, AI가 인간의 의도를 왜곡 없이 따르도록 보장하는 기술적·윤리적 접근이다.


AI alignment는 보통 두 가지 범위로 나뉜다.
- 좁은 의미의 정렬(narrow alignment): 특정 작업에서 사용자의 선호나 지시를 정확히 따르도록 조정하는 것. 예컨대 챗봇이 사용자의 질문에 정직하고 정확하게 답변하도록 만드는 방식이다.
- 넓은 의미의 정렬(ambitious alignment): 초지능 수준의 AI가 스스로 의사결정을 내리는 상황에서도 인류 전체의 복지와 가치와 일치하게 작동하도록 하는 연구로, 윤리학과 철학 영역까지 확장된다. 스튜어트 러셀은 “AI 시스템은 인간 선호의 최대 실현을 목표로 설계되어야 한다”고 강조했다.
728x90
'07.AI' 카테고리의 다른 글
| 인공지능 - 인공지능 에이전트 (Agent) (15) | 2025.11.02 |
|---|---|
| 생성형 AI - 월드 모델 (World Model) - 공동 임베딩 예측 아키텍처(JEPA) (0) | 2025.10.28 |
| LLM - Open AI, GPT-OSS (5) | 2025.10.08 |
| LLM - 가중치 (Open Weight) - 글리치(glitch) 토큰 (0) | 2025.10.08 |
| LLM - 가중치 (Open Weight) - 메타 (Meta) CWM (0) | 2025.10.08 |


