Machine Learning 5

[Machine Learning] 머신러닝으로 할 수 있는 것, sklearn 설치

Training 과 Test 훈련이란, 데이터를 입력하고, 그 결과인 레이블이 나오도록 만드는 과정.즉, 데이터와 레이블을 통해 학습을 시키는 과정테스트란, 학습이 완료된 분류기에, 학습에 사용하지 않은 데이터를 넣어서, 정답을 맞추는지 확인하는 작업   sklearn 설치 scikit-learn(사이킷런)은 파이썬을 대표하는 머신러닝 분석을 할 때 유용하게 사용할 수 있는 라이브러리 이다.  아나콘다에 기본으로 내장되어 있지만, 만약 설치가 안되었으면 아래 코드로 설치해주면 된다. ① 아나콘다 프롬프트에서 설치하는 방법$ conda install -c conda-forge scikit-learn ② 주피터 노트북에서 설치하는 방법$ pip insall scikit-learn

[Machine Learning] 데이터 분할, train_test_split

데이터 분할은,머신러닝에서 우리가 가지고 있는 정보(data)를 이용해 예측력이 좋은 모델을 찾기 위해  ① 훈련 데이터(train data)와 테스트 데이터(test data)로 분할하고,  ② train data를 학습시킨 후 test data를 사용하여,  모델이 학습하지 않은 새로운 데이터를 얼마나 잘 처리하는지를 확인해 보고  더 나은 모델을 개발 하기 위한 필수 과정이다.  - 라이브러리 불러오기 # X_train, X_test, y_train, y_test 순서 바뀌면 안됨.   test_size : 전체 데이터 중 테스트 데이터로 사용할 비율 test_size = 0.2 : 전체 데이터의 20%를 테스트 데이터로, 나머지 80%를 훈련 데이터로 사용  train data를 학습시킨 모델에 ..

[Machine Learning] 머신러닝 전처리, 문자열을 숫자로, 레이블 인코딩, 원핫 인코딩

컴퓨터는 숫자로 처리된 데이터를 읽을 수 있기 때문에, 숫자가 아닌 데이터는 숫자로 바꿔줘야 한다.  데이터를 숫자로 변경하는 방법- 레이블 인코딩(Label Encoding)- 원핫 인코딩(One Hot Encoding)  ① 문자열 컬럼의 유니크 갯수를 확인한다.② 갯수가 2개이면, 0과 1로 바꾸면 되기 때문에 레이블 인코딩을 사용하면 된다.③ 갯수가 3개 이상이면, 원핫 인코딩을 사용하여, 0과 1로 표현하도록 변경한다.  데이터프레임 X의 'Country' 컬럼에 있는 값들을 레이블 인코딩과 원핫 인코딩 해보자. - 라이브러리 불러오기 1. LabelEncoder 객체 생성 후 인코딩  2. ColumnTransformer를 이용하여 OneHotEncoder 객체 생성 후 인코딩

[Machine Learning] 머신러닝 피처 스케일링, 표준화, 정규화

피처 스케일링(Feature Scaling)표준화(Standardization )정규화(Normalization) 피처 스케일링(Feature Scaling) 이란?서로 다른 변수의 값의 범위를 맞추는 것. Why?유클리디언 디스턴스로 오차를 줄여 나가는데, 하나의 변수는 오차가 크고, 하나의 변수는 오차가 작으면, 나중에 오차를 수정할때 편중되게 된다. 따라서 값의 레인지를 맞춰줘야 정확히 트레이닝 된다. Feature Scaling 2가지 방법- 표준화 : 평균을 기준으로 얼마나 떨어져 있느냐? 같은 기준으로 만드는 방법, 음수도 존재, 데이터의 최대최소값 모를때 사용.- 정규화 : 0 ~ 1 사이로 맞추는 것. 데이터의 위치 비교가 가능, 데이터의 최대최소값 알 때 사용

[Machine Learning] 선형 회귀 Linear Regression을 이용한 수치 예측

Linear Regression: 평수·지역에 따른 집 값이나 연봉,  보험료 등과 같은 수치를 예측해 볼 수 있는 머신러닝 모델이다.  예측 과정은 데이터 분포를 만족하는 직선을 찾는 것이 목표다. 주어진 x, y  데이터를 이용해 우리가 잘 아는 직선의 방정식에서 기울기(b1)과  y절편(b0)을 찾아가는 과정인데 이를 학습이라고 부른다.여기에서 학습이란?  바로 error(오차)를 줄여 나가는 것이다. 모든 관측점(Observation) 에서 y값의 error(오차)가 존재하고, 이 오차들의 총 합을 줄여 나가면 된다. 오차를 점차 줄여 나가서 최소값이 되는 직선을 찾으면 끝난다.   - 과정 -1. Nan 처리하기2. 데이터 프레임의 컬럼을 X와 y로 분리하기3. 문자열 데이터를 숫자로 변경하기L..