머신러닝 - 군집

07.AI 2020. 7. 13. 11:26
728x90
반응형

[군집분석(Cluster Analysis)]

 

- 대상들을 분류하기 위한 명확한 기준이 존재하지 않거나 기준이 밝혀지지 않은 상태에서 다양한 특성을 지는 대상자들을 집단으로 분류하는데 사용하는 기법

- 개별 데이터들간의 유사성을 측정하여 유사한 자료를 같은 그룹으로 모으는 기법

- 대상을 군집(Cluster)이라 불리는 상대적으로 동질적인 집단으로 분류하는데 이용되는 기법

 

[군집분석 알고리즘의 분류]

분류 / 알고리즘 / 사례

1) Partitioning methods

- 사전에 결정된 군집들의 수를 사용하는 것

- 이 방법은 레코드들을 각각의 군집에 할당하는 방법

/ 일반적으로 계산량이 많지 않기 때문에 대량의 데이터베이스에서 유용

K-Means, K-medoids, PAM, CRARA, CRARANS

 

2)계층적 방법(Hierarchical methods)

- 이 방법은 병합 또는 분할 방법을 사용한다. 병합방법은 n 개의 군집들을 가지고 시작해서 최종적으로 하나의군집이 남을 때까지 순차적으로 유사한 군집들을 병합함

- 분할방법은 이와 반대 방향으로 작용하는데, 모든 레코드들을 포함하고 있는 하나의 군집에서 출발함

/ CURE, CHAMELON, BRICH

 

[군집분석을 위한 유사성의 측정(Similarity)]

- 군집으로 분류될 대상들 사이의 일치성 또는 비슷함의 척도

- 주로 유클리디안 거리를 사용

유클리디안거리 (=유클리드 거리)

임의의 두 지점간의 최단거리, 양 지점간의 직선거리

각 변수 값에서의 차이를 제곱한 것을 합하고 이를 제곱근

 

[군집분석의 장점과 단점]

장점                               단점

탐색적인 기법                      /가중치와 거리 정의

다양한 형태의 데이터에 적용가능    /초기 군집수의 결정에 민감

분석방법의 적용 용이성             /결과 해석의 어려움

 

[간글]

- 구하려는 클러스터의 개수가 미리 정의 필요, 너무 많은 클러스터 개수 설정은 큰 클러스터가 여러개로 나뉘는 결과 발생 가능

- K-means 군집기법을 사용하기 위해서는 초기에 군집의 수를 미리 제공해야 하는데 군집분석은 데이터를 분석하면서 결정하는 경험적 분석방법이므로 적절한 군집의 수를 안다는 것은 어려운 일.

- 따라서 군집의 수를 변화시켜 가면서 수행된 결과들을 비교해가는 분석방법이 요구(F-검정법등)

 

[군집분석(K-means)의 활용사례]

- Data Mining 에서 데이터 분류 및 군집 알고리즘으로 활용

- 시장과 고객 분석, 패턴인식, 공간데이터 분석, Text Mining 등

- 최근에는 패턴인식, 음성인식의 기본 알고리즘으로 활용

- 데이터가 불규칙하고 내부 특징이 알려지지 않은 분류 초기 단계에 적합.

 

728x90
Posted by Mr. Slumber
,