[PYTHON - 머신러닝_캐글_피처 스케일링]★min-max 정규화★표준화(Standardization)

2023. 1. 31. 15:28

728x90

1. 피처 스케일링

==> 서로 다른 피처 값의 범위(최댓값 - 최솟값) 이 일치하도록 조정하는 작업

2. min-max 정규화(min-max normalization)

==> 피처 값의 범위를 0~1로 조정하는 기법이다.

https://knowallworld.tistory.com/373

[PYTHON - 머신러닝_KNN알고리즘]★value_counts()★고윳값 판단★결측치★스케일링

1. 고윳값 판단 data['class'].unique() # 목표 변수의 고윳값 출력 ==> 0과 1로 이루어진 이진변수가 아닌 3개이상으로 이루어진 범주형 변수 ==> array([0,1,2]) data['class'].nunique() # 고윳값의 갯수 ==> 와인을 3

knowallworld.tistory.com

height_weight_dict = {'키' : [1.7 , 1.5 , 1.8] , '몸무게' : [75,55,60]}
df = pd.DataFrame(height_weight_dict , index = ['광일' , '혜성' , '덕수'])

print(df)

from sklearn.preprocessing import MinMaxScaler

# min-max 정규화 객체 생성

scaler = MinMaxScaler()

# min-max 정규화 적용

df_scaled = scaler.fit_transform(df)
df_scaled

3. 표준화(Standardization)

==> 평균이 0 , 분산이 1이 되도록 피처 값을 조정하는 기법

==> min-max 정규화와 다르게 표준화는 상한과 하한이 없다.

https://knowallworld.tistory.com/373

[PYTHON - 머신러닝_KNN알고리즘]★value_counts()★고윳값 판단★결측치★스케일링

knowallworld.tistory.com

==> 데이터에 아웃라이어가 존재할 때 아웃라이어의 영향을 받는다. 평균 0, 분산 1이 되게끔 분포시키기 때문에, 데이터의 기존 분포 형태가 사라지고 정규분포를 따르는 결과물을 가져온다.

from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()

# 표준화 적용

df_scaled = scaler.fit_transform(df)

df_scaled

출처 : 머신러닝·딥러닝 문제해결 전략

(Golden Rabbit , 저자 : 신백균)

※혼자 공부용

728x90

'머신러닝 > 캐글_머신러닝_이론' 카테고리의 다른 글

[PYTHON - 머신러닝_캐글_모델]★선형 회귀 모델★ (0)	2023.01.31
[PYTHON - 머신러닝_캐글_교차검증]★K-폴드 교차검증★충화 K-폴드 교차검증★folds.split(data)★ (1)	2023.01.31
[PYTHON - 머신러닝_캐글_데이터 인코딩]★LabelEncoder★One-Hot-Encoder (0)	2023.01.31
[PYTHON - 머신러닝_캐글_분류와 회귀]★회귀 평가지표★분류 평가지표★ROC, AUC★RMSE (0)	2023.01.31
[PYTHON - 머신러닝_캐글_기본 그래프]★regplot()회귀 선★barplot() vs countplot()★ (0)	2023.01.31

뭐든지 다 알아보자

Menu

Category

Notice

Recent comments

Links