728x90
반응형

(개념) 실제 데이터 세트에 존재하는 통계패턴을 모방하여 인공적으로 만들어진 가짜 데이터

 

- 실제 세계에서 수집되거나 측정되는 것이 아니라 디지털 세계에서 생성하는 것으로, 수학적으로 또는 통계적으로 실제 데이터를 반영

 

- 유럽데이터 보호 감독기구(EDPS)는 “원래 데이터 소스를 가져와 유사한 통계 속성을 가진 새로운 인공데이터를 생성하는 것”으로 정의(최은창, 2022)

 

보유한 데이터가 극히 적거나 없을 때 기존에 존재하지 않는 가상의 데이터를 AI 학습에 활용하는 것
텍스트, 이미지, 비디오, 3D 시뮬레이션 등 다양한 형태가 존재함

 

 

주간기술동향 2135호, 고성능 인공지능 개발을 위한 합성 데이터 생성 기술 동향

 

생성형 인공지능(Generative AI)으로 인한 인공지능 혁명 및 산업 변화, 해외경제연구소(이현진)

 

 

(품질 평가)  데이터 효용을 측정하고 원 데이터 세트와의 유사성을 확인하는 대표적인 합성 데이터 품질 지표는 다음과 같음(James et al., 2021)

• (분산 비교, Distribution comparison) 실제 데이터와 합성 데이터 간의 분산을 비교/ 측정하여 변수별 대표성 비교

• (헬링거 거리,Hellinger distance) 실제 데이터 세트와 합성 데이터 사이의 거리 측정

• (예측 정확도, Prediction accuracy) 실제 데이터에서 수행된 예측 분석과 합성 데이터에 기반한 예측 분석 성능을 비교하여 합성 데이터의 모방 가능성 확인

• (식별력, Distinguishability) 개발된 모델에서 데이터가 실제인지 합성인지를 결정하는 척도 활용(0 =완벽한 합성, 1= 쉽게 식별 가능)

• (AUROC) 다양한 임계값에서 합성 데이터 세트와 실제 데이터 세트를 분류하는 성능을 측정

• (이변량 상관관계, Bivariate correlation) 서로 다른 두 변수 간 관계 확인

 

 

(활용 사례)

 

 

 

https://www.kisdi.re.kr/report/view.do?key=m2101113025339&masterId=4311435&arrMasterId=4311435&artId=706876

 

KISDI 정보통신정책연구원

KISDI 정보통신정책연구원

www.kisdi.re.kr

 

728x90
Posted by Mr. Slumber
,