728x90
반응형

1. EDA로 데이터 현황 파악하기

train.info()

train데이터프레임의 결측치는 없다!

import seaborn as sns
import matplotlib.pyplot as plt

# subplot 설정
fig, axes = plt.subplots(4, 5, figsize=(12, 8))

# 첫 번째 열부터 여섯 번째 열까지 순회하면서 그래프 그리기
for i, ax in enumerate(axes.flatten()):
    if i < train.shape[1]:
        sns.distplot(train.iloc[:, i], kde=True, rug=False, ax=ax)
        ax.set_title(train.columns[i])
        ax.set_xlabel("Value")
        ax.set_ylabel("Density")
    else:
        # 마지막 subplot은 사용하지 않는 공간으로 설정
        ax.axis("off")

# subplot 간 간격 조정
plt.tight_layout()

plt.show()

train_data 분포도
train_data 분포도_2

==> 모든 피처들이 정규분포를 따르고 있다! 

 


import seaborn as sns
import matplotlib.pyplot as plt

# subplot 설정
fig, axes = plt.subplots(5, 4, figsize=(15, 8))

# 첫 번째 열부터 여섯 번째 열까지 순회하면서 그래프 그리기
for i, ax in enumerate(axes.flatten()):
    k = i
    if k < train.shape[1]:
        sns.boxplot(x=train.iloc[:, k], ax=ax)  # 박스플롯 그리기
        ax.set_title(train.columns[k]) # 서브플롯 제목 설정
        ax.set_xlabel("Value")
        ax.set_ylabel("Density")
    else:
        # 마지막 subplot은 사용하지 않는 공간으로 설정
        ax.axis("off")

# subplot 간 간격 조정
plt.tight_layout()

plt.show()

박스플롯1
박스플롯2

==> 데이터도 이상치들이 몇개 있는거 고려하면 좋을거 같다!

 

 

 

728x90
반응형

+ Recent posts