728x90
반응형
오픈AI, AI 모델 안전성 평가 시스템
AI 안전성 정량화를 위한 세이프티 허브의 평가 핵심 지표
- 네 가지 핵심 안전성 평가 영역으로 구성되어 AI 모델의 다차원적 안전성 측정
- 유해 콘텐츠(Harmful content), 탈옥(Jailbreaks), 환각(Hallucinations), 지침계층 구조(Instruction hierarchy)의 네 가지 핵심 영역에서 모델 성능 평가
- 각 영역은 실제 위험 시나리오에 기반한 세부 지표들로 구성되어 AI 안전성의 여러 측면을 포괄적으로 측정하고 판단할 수 있는 체계 제공
- 2024년 5월 출시된 GPT-4o부터 2025년 4월 발표된 최신 o3, o4-mini까지 9종의 모델에 대한 안전성 데이터를 투명하게 공개
- 모델 카드와 달리 모델별 평가 결과가 주기적으로 업데이트되는 형태로 모델 간 직접 비교와 안전성 발전 추세 파악 가능
OpenAI, Safety evaluations hub, (2025.05.14.), https://openai.com/safety/evaluations-hub
728x90
'02.SW' 카테고리의 다른 글
SW 개발 방법론 - LLMOps (Large Language Model Operations) (0) | 2025.07.31 |
---|---|
SW 테스트 - 자동화 (0) | 2025.06.28 |
프로젝트 관리 - 공공 SW - SW 하도급 (5) | 2025.04.17 |
프로젝트 관리 - 공공 SW - SW 분할발주 (0) | 2025.04.17 |
클라우드 컴퓨팅 - 클라우드 네이티브 - 발주자/개발자 안내서 (0) | 2025.03.24 |