k-means 군집화 알고리즘은 데이터셋의 유클리드 거리를 고려하여 군집을 나누는 비지도학습 알고리즘입니다. (군집 중심 찾기 -> 군집 나누기)를 반복하여 데이터셋의 군집을 구합니다.
1. 군집 중심 랜덤 초기화
2. Expectation : 모든 개체들을 가장 가까운 군집 중심의 군집으로 할당
3. Maximization : 해당 군집의 평균 지점으로 군집의 중심을 이동
4. 다시 군집화(모든 개체들을 가장 가까운 군집의 중심으로 군집 할당)
5. Expectation과 Maximization를 반복
사이킷런에서는 군집화 알고리즘을 학습하고, 군집을 계산하는 함수(KMeans)를 제공합니다.
KMeans객체를 생성할 때 n_clusters로 군집의 수를 조절합니다.
'머신러닝' 카테고리의 다른 글
# scikit-learn의 pipeline(sklearn.pipeline) (0) | 2020.02.18 |
---|---|
# scikit - learn과 머신러닝 (1) 사이킷런의 설계 철학 (0) | 2020.02.18 |
# 비슷한 correlation을 갖는 feature 제거하기 by df.triu(), df.where() (0) | 2020.02.17 |
# startswith()함수 (0) | 2020.02.17 |
# 파이썬 apply(), lambda() 이해하기 (0) | 2020.02.16 |