728x90
반응형

 

정형 데이터(Structured data)  : 구조와 형식이 미리 정해져 있는 데이터

ex: 예: 표 데이터와 관계형 데이터

 

- 속성(Attribute)의 특징과 중요도에 따라 식별자(Identifier), 준식별자(QI: Quasi-Identifier), 그리고 민감속성(SA: Sensitive Attribute)으로 분류하는 작업이 선행되어야 한다.

 

식별자는 이름, 주민등록번호, 전화번호 등과 같이 개인을 바로 식별할 수 있는 정보를 가진 속성을 말하며, 특정 개인과 일대일로 대응이 가능하므로 비식별화 과정에서 삭제되어야 한다.

 

준식별자는 나이, 성별, 우편번호 등과 같이 속성값 하나만으로 특정 개인을 식별하기 어렵지만, 여러 가지 다른 준식별자를 조합하여 식별 가능성을 높일 수 있는 속성

비식별화 과정에서 일반화(Generalization), 생략화(Suppression) 등의 방법으로 변형되는 속성이다.

 

민감속성은 개인의 급여, 병명, 계좌잔고와 같이 민감한 정보를 포함하는 속성을 말하며, 비식별화를 통해 보호받아야 하는 속성이다.

 

표 1의 질병 테이블에서 식별자는 이름이며 준식별자는 전공, 나이, 성별이고 민감속성은 질병명이다. 이러한 분류는 주관적이므로 비식별화 담당자의 판단과 상황에 따라 달라질 수 있다.

 

 

비정형 데이터(Unstructured data): 사전에 규정된 데이터 모델을 따르지 않고 쉽게 식별 가능한 구조를 가지지 않는 데이터

ex. 대표적으로 이미지, 비디오, 텍스트, 오디오 등 미디어 데이터, 문서 파일, 웹 페이 지, 웹 로그나 바이너리 등 다양한 종류의 데이터

 

얼굴, 생김새나 신용카드 번호 등 다양한 개인정보가 내포되어 있을 수 있으며, 이처럼 개인정보가 포함되어 개인을 식별할 수 있는 정보를 통칭 하여 개인식별정보(Personally Identifiable Information, PII)라고 부른다.

비정형 데이터의 비식별화는 통상적으로 먼저 주어진 데이터에서 PII를 탐지하고, 식별해낸 PII에 적절한 변형을 가하여 개인정보를 없애는 두 단계 의 과정으로 나뉘어 진행된다.

 

 

반정형 데이터(Semi-structured data): 정형 데이터와 비정형 데이터 사이에 위치하는 중간 형태의 데이터로서 JSON, XML 등과 같은 형태로 나타낼 수 있음

 

 

 

홍용기, 고기혁, 양희동, 류승환. (2023). 프라이버시 보호 데이터 배포: 정형 및 비정형 데이터 비식별화 기술 동향. 정보과학회논문지, 50(11), 1008-1029, 10.5626/JOK.2023.50.11.1008

 

 

https://www.kiise.or.kr/academy/board/paperLatelyView.fa?type=faq&PAGE=1&MENU_ID=060400&at=&aw=&NUM=662

 

한국정보과학회

 

www.kiise.or.kr

 

728x90
Posted by Mr. Slumber
,