[이진분류-예측]Data Science London + Scikit-learn-01-EDA
2023. 6. 11. 16:48
728x90
반응형
1. EDA로 데이터 현황 파악하기
train.info()
import seaborn as sns
import matplotlib.pyplot as plt
# subplot 설정
fig, axes = plt.subplots(4, 5, figsize=(12, 8))
# 첫 번째 열부터 여섯 번째 열까지 순회하면서 그래프 그리기
for i, ax in enumerate(axes.flatten()):
if i < train.shape[1]:
sns.distplot(train.iloc[:, i], kde=True, rug=False, ax=ax)
ax.set_title(train.columns[i])
ax.set_xlabel("Value")
ax.set_ylabel("Density")
else:
# 마지막 subplot은 사용하지 않는 공간으로 설정
ax.axis("off")
# subplot 간 간격 조정
plt.tight_layout()
plt.show()
==> 모든 피처들이 정규분포를 따르고 있다!
import seaborn as sns
import matplotlib.pyplot as plt
# subplot 설정
fig, axes = plt.subplots(5, 4, figsize=(15, 8))
# 첫 번째 열부터 여섯 번째 열까지 순회하면서 그래프 그리기
for i, ax in enumerate(axes.flatten()):
k = i
if k < train.shape[1]:
sns.boxplot(x=train.iloc[:, k], ax=ax) # 박스플롯 그리기
ax.set_title(train.columns[k]) # 서브플롯 제목 설정
ax.set_xlabel("Value")
ax.set_ylabel("Density")
else:
# 마지막 subplot은 사용하지 않는 공간으로 설정
ax.axis("off")
# subplot 간 간격 조정
plt.tight_layout()
plt.show()
==> 데이터도 이상치들이 몇개 있는거 고려하면 좋을거 같다!
728x90
반응형