Char :: 인공지능 - 위험 관리 - 오픈AI, 세이프티 평가 허브(Safety Evaluations Hub)

인공지능 - 위험 관리 - 오픈AI, 세이프티 평가 허브(Safety Evaluations Hub)

02.SW 2025. 5. 24. 12:35

728x90

오픈AI, AI 모델 안전성 평가 시스템

AI 안전성 정량화를 위한 세이프티 허브의 평가 핵심 지표

- 네 가지 핵심 안전성 평가 영역으로 구성되어 AI 모델의 다차원적 안전성 측정

- 유해 콘텐츠(Harmful content), 탈옥(Jailbreaks), 환각(Hallucinations), 지침계층 구조(Instruction hierarchy)의 네 가지 핵심 영역에서 모델 성능 평가

- 각 영역은 실제 위험 시나리오에 기반한 세부 지표들로 구성되어 AI 안전성의 여러 측면을 포괄적으로 측정하고 판단할 수 있는 체계 제공

- 2024년 5월 출시된 GPT-4o부터 2025년 4월 발표된 최신 o3, o4-mini까지 9종의 모델에 대한 안전성 데이터를 투명하게 공개

- 모델 카드와 달리 모델별 평가 결과가 주기적으로 업데이트되는 형태로 모델 간 직접 비교와 안전성 발전 추세 파악 가능

OpenAI, Safety evaluations hub, (2025.05.14.), https://openai.com/safety/evaluations-hub

728x90

SW 개발 방법론 - LLMOps (Large Language Model Operations) (0)	2025.07.31
SW 테스트 - 자동화 (0)	2025.06.28
프로젝트 관리 - 공공 SW - SW 하도급 (5)	2025.04.17
프로젝트 관리 - 공공 SW - SW 분할발주 (0)	2025.04.17
클라우드 컴퓨팅 - 클라우드 네이티브 - 발주자/개발자 안내서 (0)	2025.03.24

Posted by Mr. Slumber