전체 글 (14) 썸네일형 리스트형 # train_test_split() train_set, test_set = train_test_split( 원본data, test_size = 테스트사이즈 비율, random_state = 숫자, stratify = 시리즈 ) sklearn에서는 원본 데이터를 입력으로 받아 테스트 사이즈의 비율만큼 train_set과 test_set을 분할 하여 반환하는 함수를 지원합니다. 추가로 stratify에 특정 feature를 Series형태로 넣어줄 경우 해당 feature의 labels 비율을 동일하게 하여 test와 train set을 분할합니다. # one-hot encoding n종류의 label을 갖는 한 feature를 0과 1만을 갖는 feature n개로 encodeing하는 방법입니다. 판다스에서는 pd.get_dummies(시리즈) 메서드를 이용하여 해당 pd.Series를 one-hot encoding한 pd.DataFrame을 얻을 수 있습니다. 이전 1 2 3 4 5 다음