728x90
반응형

데이터 프로파일링 기술의 종류

데이터 프로파일링 툴의 일반적인 작업 방법에는 컬럼 프로파일링(column profiling), 크로스-컬럼 프로파일링(cross-column profiling), 크로스-테이블 프로파일링(cross-table profiling), 데이터 룰 검증(data rule validation) 4가지가 있습니다.

 

컬럼 프로파일링은 데이터를 읽고, 개별 열에서 각 값이 나타나는 회수를 계산합니다. 이 방법은 데이터 열 내의 도수 분포와 패턴을 찾을 때 유용합니다.

 

크로스-컬럼 프로파일링은 키 분석(key analysis)과 종속성 분석(dependency analysis)의 2가지 프로세스로 구성됩니다. 키 분석은 가능한 기본 키(primary key)를 찾기 위해 속성 값의 집합을 검사합니다. 종속성 분석은 데이터 세트 안의 각 컬럼 간의 관계 또는 구조가 존재하는지 여부를 판별하는 보다 복잡한 프로세스입니다. 두 기술 모두 동일한 테이블의 데이터 속성 사이 종속성을 분석할 때 유용합니다.

 

크로스-테이블 프로파일링은 테이블 간의 참조 관계를 식별하는 외부 키(foreign key)분석을 사용해 서로 다른 테이블안의 데이터 관계를 조사합니다. 이를 통해 중복 입력을 줄일 뿐만 아니라 함께 매핑할 수 있는 데이터 값 세트를 식별할 수 있습니다.

 

마지막으로, 데이터 룰 검증은 데이터 인스턴스와 데이터 세트가 사전에 정의된 규칙을 준수하는지 여부를 확인하기 위해 데이터 프로파일링을 실행합니다. 이 프로세스는 일괄 검증 처리나 지속적인 검증 서비스를 통해 실행될 수 있습니다.

 

 

https://blogsaskorea.com/m/42

 

데이터 프로파일링, 빅데이터를 이해하는 쉬운 방법

여러분은 ‘프로파일링(profiling)’하면 뭐가 제일 먼저 생각나나요? 아마 많은 분들이 범인을 추적하는 범죄 프로파일러(profiler)를 떠올릴 것 같은데요. 맞습니다. 프로파일링은 범죄 현장과 증��

blogsaskorea.com

 

728x90
Posted by Mr. Slumber
,