Machine Learning/Machine Learning

[Machine Learning] 데이터 분할, train_test_split

Mei99 2024. 4. 17. 17:59

데이터 분할은,

머신러닝에서 우리가 가지고 있는 정보(data)를 이용해 예측력이 좋은 모델을 찾기 위해 

 

훈련 데이터(train data)와 테스트 데이터(test data)로 분할하고, 

② train data를 학습시킨 후 test data를 사용하여,  모델이 학습하지 않은 새로운 데이터를 얼마나 잘 처리하는지를 확인해 보고

 

 더 나은 모델을 개발 하기 위한 필수 과정이다.

 

 

- 라이브러리 불러오기

 # X_train, X_test, y_train, y_test 순서 바뀌면 안됨.

 

 

 

test_size : 전체 데이터 중 테스트 데이터로 사용할 비율 

test_size = 0.2 : 전체 데이터의 20%를 테스트 데이터로, 나머지 80%를 훈련 데이터로 사용

 

 

train data를 학습시킨 모델에 

 

X_test 데이터를 넣어 예측해본 후, 

 

 

실제값(Salary)과 모델이 예측한 값(y_pred)를 비교해 보자.