데이터 프로파일링 기술의 종류
데이터 프로파일링 툴의 일반적인 작업 방법에는 컬럼 프로파일링(column profiling), 크로스-컬럼 프로파일링(cross-column profiling), 크로스-테이블 프로파일링(cross-table profiling), 데이터 룰 검증(data rule validation) 4가지가 있습니다.
컬럼 프로파일링은 데이터를 읽고, 개별 열에서 각 값이 나타나는 회수를 계산합니다. 이 방법은 데이터 열 내의 도수 분포와 패턴을 찾을 때 유용합니다.
크로스-컬럼 프로파일링은 키 분석(key analysis)과 종속성 분석(dependency analysis)의 2가지 프로세스로 구성됩니다. 키 분석은 가능한 기본 키(primary key)를 찾기 위해 속성 값의 집합을 검사합니다. 종속성 분석은 데이터 세트 안의 각 컬럼 간의 관계 또는 구조가 존재하는지 여부를 판별하는 보다 복잡한 프로세스입니다. 두 기술 모두 동일한 테이블의 데이터 속성 사이 종속성을 분석할 때 유용합니다.
크로스-테이블 프로파일링은 테이블 간의 참조 관계를 식별하는 외부 키(foreign key)분석을 사용해 서로 다른 테이블안의 데이터 관계를 조사합니다. 이를 통해 중복 입력을 줄일 뿐만 아니라 함께 매핑할 수 있는 데이터 값 세트를 식별할 수 있습니다.
마지막으로, 데이터 룰 검증은 데이터 인스턴스와 데이터 세트가 사전에 정의된 규칙을 준수하는지 여부를 확인하기 위해 데이터 프로파일링을 실행합니다. 이 프로세스는 일괄 검증 처리나 지속적인 검증 서비스를 통해 실행될 수 있습니다.
'04.Database' 카테고리의 다른 글
빅데이터 - DW - OLAP (1) | 2020.06.04 |
---|---|
빅데이터 - DW (0) | 2020.06.04 |
DB 유형 - 그래프 DB (0) | 2020.06.04 |
데이터 모델링 - 스키마 - 외부, 개념, 내부 (아키텍처) (0) | 2020.06.04 |
DB - 트랜잭션 - 직렬성 (Serialization) (0) | 2020.06.04 |