컴퓨터는 숫자로 처리된 데이터를 읽을 수 있기 때문에, 숫자가 아닌 데이터는 숫자로 바꿔줘야 한다.
데이터를 숫자로 변경하는 방법
- 레이블 인코딩(Label Encoding)
- 원핫 인코딩(One Hot Encoding)
① 문자열 컬럼의 유니크 갯수를 확인한다.
② 갯수가 2개이면, 0과 1로 바꾸면 되기 때문에 레이블 인코딩을 사용하면 된다.
③ 갯수가 3개 이상이면, 원핫 인코딩을 사용하여, 0과 1로 표현하도록 변경한다.
데이터프레임 X의 'Country' 컬럼에 있는 값들을 레이블 인코딩과 원핫 인코딩 해보자.
- 라이브러리 불러오기
1. LabelEncoder 객체 생성 후 인코딩
2. ColumnTransformer를 이용하여 OneHotEncoder 객체 생성 후 인코딩
'Machine Learning > Machine Learning' 카테고리의 다른 글
[Machine Learning] 머신러닝으로 할 수 있는 것, sklearn 설치 (0) | 2024.06.26 |
---|---|
[Machine Learning] 데이터 분할, train_test_split (0) | 2024.04.17 |
[Machine Learning] 머신러닝 피처 스케일링, 표준화, 정규화 (0) | 2024.04.15 |
[Machine Learning] 선형 회귀 Linear Regression을 이용한 수치 예측 (0) | 2024.04.15 |