728x90
반응형

(개념) 실제로 측정된 데이터(Real Data, 이하 실제데이터)를 생성하는 모형이 존재한다고 가정하고, 통계적 방법이나 기계학습 방법 등을 이용하여 추정된 모형에서 새롭게 생성한 모의데이터(Simulated Data)

 

직접 측정으로 획득되지 않은 주어진 상황에 적용되는 모든 생산 데이터 (McGraw-Hill 과학․기술 사전)

실제로 측정하지 않은 임의의 데이터로 넓게 정의하기도 하지만, 통상적으로 추정된 모형에서 생성된 가상의 데이터를 의미 (위키디피아)

 

개인의 프라이버시를 보호하면서도 민감한 정보를 분석하고자 하는 연구자들에게 데이터를 제공 할 수 있는 대안적 개인정보 비식별 조치 기법의 하나

 

○ 실제로 측정된 데이터(Real Data)를 생성하는 모형이 존재한다고 가정하고, 통계적 방법이나 기계학습 방법 등을 이용하여 추정된 모형에서 새롭게 생성한 모의데이터(Simulated Data)

 

○ 모집단의 통계적 특성들을 유지하면서도 민감한 정보를 외부에 직접 공개하지 않으며, 개인이 제공한 데이터가 아닌 임의로 생성한 데이터로 개인정보보호 관련 법규의 규제로부터 자유로운 특징이 존재

 

(유형) 완전 재현데이터, 부분 재현데이터, 복합 재현데이터

 

완전 재현데이터(Fully Synthetic Data) :  공개하려고 하는 데이터에 측정된 실제데이터가 하나도 없이 모두가상으로 생성된 데이터로만 이루어진 데이터를 의미하며, 정보보호 측면에서 가장 강력한 보안성을 가짐

 

부분 재현데이터(Partially Synthetic Data): 공개하려는 변수들 중 일부만을 선택하여 재현데이터로대체한 데이터를 의미하며, 보통 재현데이터로 대치되는 변수들은 민감한 정보에 관한 변수들임 

 

복합 재현데이터(Hybrid Synthetic Data): 일부 변수들의 값을 재현데이터로 생성하고 생성된 재현데이터와 실제데이터를 모두 이용하여 또다른 일부 변수들의 값을 다시 도출하는 방법으로 생성

 

(알고리즘) 전통적 통계 또는 베이지안 방법, 기계학습 모형 방법, 차등정보보호에 의한 방법 등

 

(특징)

1) 원본데이터와의 지속적인 비교 등을 통해 신뢰성 확보 필요

2) 재현대상 변수의 수가 증가할수록 원본의 통계적 특징을 유지하도록 하는 알고리즘 생성에 제약이생기며, 원본의 크기가 크거나 시계열 데이터인 경우에는 모형의 추정이 어려움

3) 생성 방법에 따라 데이터의 특성 및 제한점이 존재

 

(생성도구)

 

 

 

 

출처: 진짜 같은 가짜 ! 재현데이터의 개념 및 활용 사례 (이재근 팀장 (jglee@kcredit.or.kr))

 

[이슈리포트 2019-8호] 진짜 같은 가짜 재현데이터의 개념 및 활용 사례.pdf
0.78MB

728x90
Posted by Mr. Slumber
,