# K-means 군집화 알고리즘 (sklearn.cluster)

k-means 군집화 알고리즘은 데이터셋의 유클리드 거리를 고려하여 군집을 나누는 비지도학습 알고리즘입니다. (군집 중심 찾기 -> 군집 나누기)를 반복하여 데이터셋의 군집을 구합니다.

1. 군집 중심 랜덤 초기화

2. Expectation : 모든 개체들을 가장 가까운 군집 중심의 군집으로 할당

3. Maximization : 해당 군집의 평균 지점으로 군집의 중심을 이동

4. 다시 군집화(모든 개체들을 가장 가까운 군집의 중심으로 군집 할당)

5. Expectation과 Maximization를 반복

사이킷런에서는 군집화 알고리즘을 학습하고, 군집을 계산하는 함수(KMeans)를 제공합니다.

KMeans객체를 생성할 때 n_clusters로 군집의 수를 조절합니다.

# scikit-learn의 pipeline(sklearn.pipeline) (0)	2020.02.18
# scikit - learn과 머신러닝 (1) 사이킷런의 설계 철학 (0)	2020.02.18
# 비슷한 correlation을 갖는 feature 제거하기 by df.triu(), df.where() (0)	2020.02.17
# startswith()함수 (0)	2020.02.17
# 파이썬 apply(), lambda() 이해하기 (0)	2020.02.16

감귤맨의 코딩일기