본문 바로가기

머신러닝

# K-means 군집화 알고리즘 (sklearn.cluster)

k-means 군집화 알고리즘은 데이터셋의 유클리드 거리를 고려하여 군집을 나누는 비지도학습 알고리즘입니다. (군집 중심 찾기 -> 군집 나누기)를 반복하여 데이터셋의 군집을 구합니다.

 

1. 군집 중심 랜덤 초기화

2. Expectation : 모든 개체들을 가장 가까운 군집 중심의 군집으로 할당

3. Maximization : 해당 군집의 평균 지점으로 군집의 중심을 이동

4. 다시 군집화(모든 개체들을 가장 가까운 군집의 중심으로 군집 할당)

5. Expectation Maximization를 반복

 

사이킷런에서는 군집화 알고리즘을 학습하고, 군집을 계산하는 함수(KMeans)를 제공합니다.

KMeans객체를 생성할 때 n_clusters로 군집의 수를 조절합니다.