비지도학습 – 1. K-평균 군집화

K-평균 군집화
비지도학습 알고리즘 1

 

K-평균 군집화란?

K-평균 군집화(K-Means Clustering)는 비지도학습 중 군집화의 일종으로, 입력 데이터를 K개의 클러스터로 그룹화하는 알고리즘입니다. 각 클러스터는 중심점인 센트로이드(Centroid)를 가지며, 데이터들은 가장 가까운 센트로이드에 할당됩니다.

 

알고리즘 과정

첫째로, 초기에 K개의 센트로이드를 랜덤하게 선택하고, 각 데이터를 가장 가까운 centroid(도심)에 할당합니다.

그 다음으로, 할당된 데이터들의 평균을 구하여 새로운 centroid를 계산하고 centroid를 이동 시켜줍니다.

이러한 할당과 업데이트 과정을 반복하여 센트로이드와 데이터 할당이 수렴할 때까지 진행됩니다.

수렴 조건은 센트로이드 이동이 미미하게 되거나 반복 횟수가 지정한 값에 도달하는 등의 조건으로 설정됩니다.

k-평균 군집화 초기값 설정
첫 할당 및 업데이트 후의 모습
수렴 조건을 충족한 클러스터링

K-평균 군집화는 거리 기반 알고리즘으로, 각 데이터와 센트로이드 간의 유클리디안 거리를 계산하여 할당합니다.

유클리디안 거리 공식은 고등학교 과정에서 배우는 피타고라스 공식과 같다고 생각하면 되겠습니다.

유클리디안 거리 공식 (출처: 네이버 블로그)

데이터의 특성은 숫자형 데이터로 가정되며, 거리 측정을 통해 유사한 데이터를 같은 클러스터로 묶습니다. 알고리즘이 수렴할 때까지 센트로이드와 데이터 할당을 반복하며, 결과적으로 클러스터링된 그룹을 얻을 수 있습니다.

 

알고리즘 특징

단점

초기 센트로이드의 선택은 군집화 결과에 영향을 미치기 때문에 랜덤 초기화로 인해 서로 다른 결과가 나올 수 있습니다. 따라서 알고리즘을 여러 번 실행하여 결과를 평균 내는 등의 전략을 사용할 수 있습니다.

클러스터의 개수 K를 어떻게 설정하는 지가 중요합니다. 적절한 K 값을 찾기 위해 엘보우 방법, 실루엣 분석 등의 평가 지표를 사용할 수 있습니다.

 

활용

K-평균 군집화는 데이터 마이닝, 패턴 인식, 이미지 처리 등 다양한 분야에서 활용되는 강력한 비지도학습 알고리즘입니다.

예를 들어, 고객 세그먼테이션(Customer Segmentation)에서는 고객들을 다양한 특성에 따라 그룹화하여 마케팅 전략을 수립할 수 있습니다. 또한 이미지 압축과 비디오 압축 등의 영상 처리에서도 활용됩니다. 데이터를 그룹화하고 데이터 간의 유사성을 파악하는데 유용하며, 데이터의 구조를 이해하고 의미 있는 정보를 추출하는 데 도움을 줍니다.

 

함께 보면 좋은 글들

Leave a Comment