비지도학습 – 2. 계층적 군집화

계층적 군집화
비지도학습 알고리즘 3

계층적 군집화란?

계층적 군집화(Hierarchical Clustering)는 비지도학습의 한 종류로, 데이터를 계층적으로 그룹화하는 알고리즘입니다.

이 알고리즘은 데이터 포인트들을 트리 구조로 표현하며, 유사한 데이터가 서로 가깝게 위치하고 서로 다른 클러스터가 계층적으로 형성됩니다. 또한 이 알고리즘은 데이터 포인트들을 계층적인 트리 구조로 표현하는 특징을 가지고 있습니다.

이 트리 구조는 덴드로그램(Dendrogram)으로 시각화됩니다. 덴드로그램은 데이터의 계층 구조와 클러스터 간의 거리를 표현하며, 맨 위에는 모든 데이터가 하나의 클러스터로 시작하고, 아래로 내려갈수록 클러스터가 세분화되어 나뉩니다.

Dendrogram(덴드로그램) (출처: 네이버 블로그)

알고리즘의 두 가지 종류

이 알고리즘은 두 가지 주요한 방법으로 나뉩니다:

1. 병합적 계층적 군집화(Agglomerative Hierarchical Clustering)

맨 처음에 각 데이터 포인트를 개별적인 클러스터로 시작하고, 가까운 클러스터들을 합쳐가며 트리를 형성합니다. 쉽게 말해 Bottom-Up 방식의 군집화라고 보시면 되겠습니다.

 

2. 분할적 계층적 군집화(Divisive Hierarchical Clustering)

모든 데이터를 하나의 클러스터로 시작하고, 트리를 분할하여 작은 클러스터를 형성합니다.

해당 알고리즘보다는 병합적 계층적 군집화 방법이 더 일반적으로 사용되는 방법이며, 이는 Top-Down 방식의 군집화를 의미합니다.

알고리즘 특징

계층적 군집화는 데이터를 계층적 구조로 표현하여 유사한 데이터를 그룹화하는 강력한 비지도학습 알고리즘입니다. 이 알고리즘의 장점은 데이터 간의 유사성을 시각화하고 이해하는 데 도움을 준다는 것입니다. 또한 계층 구조를 통해 더 세부적인 군집을 만들 수 있으며, 군집 간의 관계와 계층 구조를 파악할 수 있습니다. 이를 통해 데이터 분석과 의사 결정 과정에서 유용한 통찰력을 얻을 수 있습니다.

주요한 활용분야로는 소셜 네트워크 분석, 고객 세그먼테이션, 지리 정보 시스템 등의 분야에서 활용됩니다. 예를 들어, 생물학에서는 유전자 분석, 종의 분류, 진화 관계 등을 이해하는 데 사용됩니다. 결론적으로 이 알고리즘은 데이터의 유사성을 고려한 분석을 제공하므로, 데이터의 구조와 패턴을 파악하고 정보를 추출하는 데 유용합니다.

데이터 간의 거리 측정과 클러스터 병합 과정을 통해 유용한 정보를 얻을 수 있습니다.

 

함께 보면 좋은 글들

Leave a Comment