Machine Learning/Machine Learning

[Machine Learning] 머신러닝 전처리, 문자열을 숫자로, 레이블 인코딩, 원핫 인코딩

Mei99 2024. 4. 16. 12:11

컴퓨터는 숫자로 처리된 데이터를 읽을 수 있기 때문에, 숫자가 아닌 데이터는 숫자로 바꿔줘야 한다.

 

 

데이터를 숫자로 변경하는 방법

- 레이블 인코딩(Label Encoding)

- 원핫 인코딩(One Hot Encoding)

 

 

① 문자열 컬럼의 유니크 갯수를 확인한다.
② 갯수가 2개이면, 0과 1로 바꾸면 되기 때문에 레이블 인코딩을 사용하면 된다.
③ 갯수가 3개 이상이면, 원핫 인코딩을 사용하여, 0과 1로 표현하도록 변경한다.

 

 

데이터프레임 X의 'Country' 컬럼에 있는 값들을 레이블 인코딩과 원핫 인코딩 해보자.

 

- 라이브러리 불러오기

 

1. LabelEncoder 객체 생성 후 인코딩

 

 

2. ColumnTransformer를 이용하여 OneHotEncoder 객체 생성 후 인코딩