본문 바로가기

머신러닝

# train_test_split()

train_set, test_set = train_test_split( 원본data, test_size = 테스트사이즈 비율, random_state = 숫자, stratify = 시리즈 )

 sklearn에서는 원본 데이터를 입력으로 받아 테스트 사이즈의 비율만큼 train_settest_set을 분할 하여 반환하는 함수를 지원합니다. 추가로 stratify에 특정 feature를 Series형태로 넣어줄 경우 해당 feature labels 비율을 동일하게 하여 testtrain set을 분할합니다.

'머신러닝' 카테고리의 다른 글

# Continuous 형 데이터의 분석 방법 : band로 묶어서 분석하기, groupby() 이용하기  (0) 2020.02.16
# cross-validation  (0) 2020.02.16
# accuracy_score  (0) 2020.02.16
# LogisticRegression  (0) 2020.02.16
# one-hot encoding  (2) 2020.02.16