[Machine Learning] 데이터 분할, train_test

Machine Learning/Machine Learning

[Machine Learning] 데이터 분할, train_test_split

Mei99 2024. 4. 17. 17:59

데이터 분할은,

머신러닝에서 우리가 가지고 있는 정보(data)를 이용해 예측력이 좋은 모델을 찾기 위해

① 훈련 데이터(train data)와 테스트 데이터(test data)로 분할하고,

② train data를 학습시킨 후 test data를 사용하여, 모델이 학습하지 않은 새로운 데이터를 얼마나 잘 처리하는지를 확인해 보고

더 나은 모델을 개발 하기 위한 필수 과정이다.

- 라이브러리 불러오기

# X_train, X_test, y_train, y_test 순서 바뀌면 안됨.

test_size : 전체 데이터 중 테스트 데이터로 사용할 비율

test_size = 0.2 : 전체 데이터의 20%를 테스트 데이터로, 나머지 80%를 훈련 데이터로 사용

train data를 학습시킨 모델에

X_test 데이터를 넣어 예측해본 후,

실제값(Salary)과 모델이 예측한 값(y_pred)를 비교해 보자.

[Machine Learning] 머신러닝으로 할 수 있는 것, sklearn 설치 (0)	2024.06.26
[Machine Learning] 머신러닝 전처리, 문자열을 숫자로, 레이블 인코딩, 원핫 인코딩 (0)	2024.04.16
[Machine Learning] 머신러닝 피처 스케일링, 표준화, 정규화 (0)	2024.04.15
[Machine Learning] 선형 회귀 Linear Regression을 이용한 수치 예측 (0)	2024.04.15

MI's Recording

J, ȭ,