데이터 분할은,
머신러닝에서 우리가 가지고 있는 정보(data)를 이용해 예측력이 좋은 모델을 찾기 위해
① 훈련 데이터(train data)와 테스트 데이터(test data)로 분할하고,
② train data를 학습시킨 후 test data를 사용하여, 모델이 학습하지 않은 새로운 데이터를 얼마나 잘 처리하는지를 확인해 보고
더 나은 모델을 개발 하기 위한 필수 과정이다.
- 라이브러리 불러오기
# X_train, X_test, y_train, y_test 순서 바뀌면 안됨.
test_size : 전체 데이터 중 테스트 데이터로 사용할 비율
test_size = 0.2 : 전체 데이터의 20%를 테스트 데이터로, 나머지 80%를 훈련 데이터로 사용
train data를 학습시킨 모델에
X_test 데이터를 넣어 예측해본 후,
실제값(Salary)과 모델이 예측한 값(y_pred)를 비교해 보자.
'Machine Learning > Machine Learning' 카테고리의 다른 글
[Machine Learning] 머신러닝으로 할 수 있는 것, sklearn 설치 (0) | 2024.06.26 |
---|---|
[Machine Learning] 머신러닝 전처리, 문자열을 숫자로, 레이블 인코딩, 원핫 인코딩 (0) | 2024.04.16 |
[Machine Learning] 머신러닝 피처 스케일링, 표준화, 정규화 (0) | 2024.04.15 |
[Machine Learning] 선형 회귀 Linear Regression을 이용한 수치 예측 (0) | 2024.04.15 |