train_set, test_set = train_test_split( 원본data, test_size = 테스트사이즈 비율, random_state = 숫자, stratify = 시리즈 )
sklearn에서는 원본 데이터를 입력으로 받아 테스트 사이즈의 비율만큼 train_set과 test_set을 분할 하여 반환하는 함수를 지원합니다. 추가로 stratify에 특정 feature를 Series형태로 넣어줄 경우 해당 feature의 labels 비율을 동일하게 하여 test와 train set을 분할합니다.
'머신러닝' 카테고리의 다른 글
# Continuous 형 데이터의 분석 방법 : band로 묶어서 분석하기, groupby() 이용하기 (0) | 2020.02.16 |
---|---|
# cross-validation (0) | 2020.02.16 |
# accuracy_score (0) | 2020.02.16 |
# LogisticRegression (0) | 2020.02.16 |
# one-hot encoding (2) | 2020.02.16 |