(개념) 실제 데이터 세트에 존재하는 통계패턴을 모방하여 인공적으로 만들어진 가짜 데이터
- 실제 세계에서 수집되거나 측정되는 것이 아니라 디지털 세계에서 생성하는 것으로, 수학적으로 또는 통계적으로 실제 데이터를 반영
- 유럽데이터 보호 감독기구(EDPS)는 “원래 데이터 소스를 가져와 유사한 통계 속성을 가진 새로운 인공데이터를 생성하는 것”으로 정의(최은창, 2022)
보유한 데이터가 극히 적거나 없을 때 기존에 존재하지 않는 가상의 데이터를 AI 학습에 활용하는 것
텍스트, 이미지, 비디오, 3D 시뮬레이션 등 다양한 형태가 존재함
(품질 평가) 데이터 효용을 측정하고 원 데이터 세트와의 유사성을 확인하는 대표적인 합성 데이터 품질 지표는 다음과 같음(James et al., 2021)
• (분산 비교, Distribution comparison) 실제 데이터와 합성 데이터 간의 분산을 비교/ 측정하여 변수별 대표성 비교
• (헬링거 거리,Hellinger distance) 실제 데이터 세트와 합성 데이터 사이의 거리 측정
• (예측 정확도, Prediction accuracy) 실제 데이터에서 수행된 예측 분석과 합성 데이터에 기반한 예측 분석 성능을 비교하여 합성 데이터의 모방 가능성 확인
• (식별력, Distinguishability) 개발된 모델에서 데이터가 실제인지 합성인지를 결정하는 척도 활용(0 =완벽한 합성, 1= 쉽게 식별 가능)
• (AUROC) 다양한 임계값에서 합성 데이터 세트와 실제 데이터 세트를 분류하는 성능을 측정
• (이변량 상관관계, Bivariate correlation) 서로 다른 두 변수 간 관계 확인
(활용 사례)
KISDI 정보통신정책연구원
KISDI 정보통신정책연구원
www.kisdi.re.kr
'07.AI' 카테고리의 다른 글
생성형 AI - 생명과학 분야의 상업적 활용 (0) | 2024.06.11 |
---|---|
개인정보 - 인공지능 - 알고리즘 삭제 명령 (0) | 2024.06.06 |
생성형 AI (1) | 2024.06.06 |
생성형 AI - Gemini(제미나이) (2) | 2024.06.04 |
음성인식 - 자연어처리 (NLP) - GPT-4o (0) | 2024.06.04 |