[군집분석(Cluster Analysis)]
- 대상들을 분류하기 위한 명확한 기준이 존재하지 않거나 기준이 밝혀지지 않은 상태에서 다양한 특성을 지는 대상자들을 집단으로 분류하는데 사용하는 기법
- 개별 데이터들간의 유사성을 측정하여 유사한 자료를 같은 그룹으로 모으는 기법
- 대상을 군집(Cluster)이라 불리는 상대적으로 동질적인 집단으로 분류하는데 이용되는 기법
[군집분석 알고리즘의 분류]
분류 / 알고리즘 / 사례
1) Partitioning methods
- 사전에 결정된 군집들의 수를 사용하는 것
- 이 방법은 레코드들을 각각의 군집에 할당하는 방법
/ 일반적으로 계산량이 많지 않기 때문에 대량의 데이터베이스에서 유용
K-Means, K-medoids, PAM, CRARA, CRARANS
2)계층적 방법(Hierarchical methods)
- 이 방법은 병합 또는 분할 방법을 사용한다. 병합방법은 n 개의 군집들을 가지고 시작해서 최종적으로 하나의군집이 남을 때까지 순차적으로 유사한 군집들을 병합함
- 분할방법은 이와 반대 방향으로 작용하는데, 모든 레코드들을 포함하고 있는 하나의 군집에서 출발함
/ CURE, CHAMELON, BRICH
[군집분석을 위한 유사성의 측정(Similarity)]
- 군집으로 분류될 대상들 사이의 일치성 또는 비슷함의 척도
- 주로 유클리디안 거리를 사용
유클리디안거리 (=유클리드 거리)
임의의 두 지점간의 최단거리, 양 지점간의 직선거리
각 변수 값에서의 차이를 제곱한 것을 합하고 이를 제곱근
[군집분석의 장점과 단점]
장점 단점
탐색적인 기법 /가중치와 거리 정의
다양한 형태의 데이터에 적용가능 /초기 군집수의 결정에 민감
분석방법의 적용 용이성 /결과 해석의 어려움
[간글]
- 구하려는 클러스터의 개수가 미리 정의 필요, 너무 많은 클러스터 개수 설정은 큰 클러스터가 여러개로 나뉘는 결과 발생 가능
- K-means 군집기법을 사용하기 위해서는 초기에 군집의 수를 미리 제공해야 하는데 군집분석은 데이터를 분석하면서 결정하는 경험적 분석방법이므로 적절한 군집의 수를 안다는 것은 어려운 일.
- 따라서 군집의 수를 변화시켜 가면서 수행된 결과들을 비교해가는 분석방법이 요구(F-검정법등)
[군집분석(K-means)의 활용사례]
- Data Mining 에서 데이터 분류 및 군집 알고리즘으로 활용
- 시장과 고객 분석, 패턴인식, 공간데이터 분석, Text Mining 등
- 최근에는 패턴인식, 음성인식의 기본 알고리즘으로 활용
- 데이터가 불규칙하고 내부 특징이 알려지지 않은 분류 초기 단계에 적합.
'07.AI' 카테고리의 다른 글
추천 시스템 - 가짜뉴스 (Fake News) (0) | 2020.07.13 |
---|---|
머신러닝 - 분류 - 우도확률 (Likehood) (0) | 2020.07.13 |
인공지능 - 플랫폼 - AutoML - NAS(Neural Architecture Search) (0) | 2020.07.13 |
인공지능 - 플랫폼 - 텐서플로우 (tensorflow) (0) | 2020.07.10 |
자연어처리 (NLP) - 술어논리 (0) | 2020.07.10 |