(개념) 실제 데이터 세트에 존재하는 통계패턴을 모방하여 인공적으로 만들어진 가짜 데이터
컴퓨터 시뮬레이션 또는 알고리즘에 의해특정 목적을 위해 원본데이터의 형식과 구조 및 통계적 분포 특성과 패턴을학습하여 생성한 모의(simulated) 또는 가상(artificial) 데이터 (개인정보보호위원회)
- 실제 세계에서 수집되거나 측정되는 것이 아니라 디지털 세계에서 생성하는 것으로, 수학적으로 또는 통계적으로 실제 데이터를 반영
- 실제 데이터(Real Data)와 통계적 특성이 유사하여, 실제 데이터 분석결과와 유사한 결과를 얻을 수 있도록 새롭게 생성해낸 가상의 데이터
- 유럽데이터 보호 감독기구(EDPS)는 “원래 데이터 소스를 가져와 유사한 통계 속성을 가진 새로운 인공데이터를 생성하는 것”으로 정의(최은창, 2022)
※ 개인정보 보호 등의 사유로 실제 데이터의 활용이 어렵거나, 활용할 수 있는 데이터의 양이 부족한 경우에 주로 활용되며, 실제 데이터와 유사할수록 활용 가치가 높음
보유한 데이터가 극히 적거나 없을 때 기존에 존재하지 않는 가상의 데이터를 AI 학습에 활용하는 것
텍스트, 이미지, 비디오, 3D 시뮬레이션 등 다양한 형태가 존재함
(유형)
(품질 평가) 데이터 효용을 측정하고 원 데이터 세트와의 유사성을 확인하는 대표적인 합성 데이터 품질 지표는 다음과 같음(James et al., 2021)
• (분산 비교, Distribution comparison) 실제 데이터와 합성 데이터 간의 분산을 비교/ 측정하여 변수별 대표성 비교
• (헬링거 거리,Hellinger distance) 실제 데이터 세트와 합성 데이터 사이의 거리 측정
• (예측 정확도, Prediction accuracy) 실제 데이터에서 수행된 예측 분석과 합성 데이터에 기반한 예측 분석 성능을 비교하여 합성 데이터의 모방 가능성 확인
• (식별력, Distinguishability) 개발된 모델에서 데이터가 실제인지 합성인지를 결정하는 척도 활용(0 =완벽한 합성, 1= 쉽게 식별 가능)
• (AUROC) 다양한 임계값에서 합성 데이터 세트와 실제 데이터 세트를 분류하는 성능을 측정
• (이변량 상관관계, Bivariate correlation) 서로 다른 두 변수 간 관계 확인
(이점)
1) (안전성) 민감한 정보가 포함되어 데이터 활용에 우려가 있는 경우, 실제 데이터가 포함되지 않는 합성데이터를 생성하여 안전하게 활용가능
2) (비용 효율성) AI 학습에 필요한 대규모 데이터를 직접 구축하는 것보다 합성데이터를 생성하여 활용하는 것이 비용면에서 훨씬 저렴*할 수 있음
* “이미지 1개를 확보하는데 통상 6달러의 비용이 드는 반면, 합성데이터로 만든다면 6센트면 된다” (최초의 합성데이터 서비스업체 AI.Reverie의 공동설립자 폴 월보르스키)4)
3) (AI모델 성능 향상) AI모델 고도화를 위한 실제 데이터가 부족한 경우, 합성데이터를 통해 가치 있는 학습데이터셋을 대량으로 구축 가능
예시 자동차 교통사고 영상 등 수집하기 어렵거나 불가능한 극단적 사례가 필요한 경우
예시 설문조사 시 주어진 질문에 답을 완료하지 않는 등 결측데이터가 존재하는 경우
예시 편향된 데이터로 학습된 AI모델의 고도화를 위해 추가 학습데이터가 필요한 경우
※ AI모델 성능 향상은 학습에 사용되는 합성데이터의 품질에 따라 좌우되며, 합성데이터만 활용하여 학습할 경우 실제 데이터로만 학습할 때보다 성능은 약간떨어질 수 있음(이 때문에 모델 성능개선을 위해 부분 합성데이터를 활용하기도 함)
4) (법적 제약 해소) 합성데이터는 분석 등 2차 목적의 데이터 활용에 대한법적 제약(추가 동의, 보호조치 등)을 해소하는 방법 중 하나로 활용 가능
5) (프라이버시와 유용성의 균형) 합성데이터는 프라이버시 보호와 데이터유용성 간의 상충 관계(Trade-off)를 극복할 수 있는 해결책이 될 수 있음
(비식별처리정보 vs 합성데이터 비교)
(활용 목적)
(활용 사례)
'07.AI' 카테고리의 다른 글
클라우드 컴퓨팅 - AI - AIaaS (인공지능 서비스) (0) | 2025.01.07 |
---|---|
인공지능 - AI 오케스트레이션 (0) | 2025.01.06 |
LLM - 성능 - Meta, COCONUT (Chain of Continuous Thought) (3) | 2025.01.02 |
클라우드 컴퓨팅 - 클라우드 네이티브 - 엔비디아 NIM(Nvidia Inference Microservices) (1) | 2025.01.02 |
인공지능 - 법/규제 - 인공지능 발전과 신뢰 기반 조성 등에 관한 기본법(AI기본법) (1) | 2024.12.30 |