728x90
반응형

오픈AI, AI 모델 안전성 평가 시스템

 

AI 안전성 정량화를 위한 세이프티 허브의 평가 핵심 지표

 

- 네 가지 핵심 안전성 평가 영역으로 구성되어 AI 모델의 다차원적 안전성 측정

- 유해 콘텐츠(Harmful content), 탈옥(Jailbreaks), 환각(Hallucinations), 지침계층 구조(Instruction hierarchy)의 네 가지 핵심 영역에서 모델 성능 평가

- 각 영역은 실제 위험 시나리오에 기반한 세부 지표들로 구성되어 AI 안전성의 여러 측면을 포괄적으로 측정하고 판단할 수 있는 체계 제공

- 2024년 5월 출시된 GPT-4o부터 2025년 4월 발표된 최신 o3, o4-mini까지 9종의 모델에 대한 안전성 데이터를 투명하게 공개

- 모델 카드와 달리 모델별 평가 결과가 주기적으로 업데이트되는 형태로 모델 간 직접 비교와 안전성 발전 추세 파악 가능

 

 

 

OpenAI, Safety evaluations hub, (2025.05.14.), https://openai.com/safety/evaluations-hub

 

728x90
Posted by Mr. Slumber
,