Search

Tabular Playground Series - Mar 2021

상태
Not started
Colab 링크
4 more properties

분석 목표

이진 분류 예측 프로젝트
cat0 ~ cat18 : 범주형 변수
cont0 ~ cont10 : 연속형 변수
간단한 이진 분류 프로젝트다. kaggle 에서 기본적인 머신러닝 분류 예측에 용이한 과제 중 하나를 제공했다.

전처리

결측치

훈련 데이터와 테스트 데이터 모두, 결측치는 없는 깔끔한 데이터다.

변수 특징

범주형 데이터의 범주는 무수히 많은 변수부터, 범주가 적은 데이터까지 다양하다.
연속형 데이터의 경우, 평균과 중위수 값에 큰 차이가 없다. → 이상치가 많이 없다고 생각해볼 수 있다.
왜도첨도를 확인해서 정규분포와의 유사 정도를 확인해볼 수 있다

EDA

Target 값의 분포 확인

타겟값은 이진 값으로 0 또는 1의 값이다. 학습 데이터를 통해서 각 데이터의 분포가 어떻게 되어있는지 확인해봤다.
0의 값이 약 22만개, 1의 값은 약 8만개로 학습 데이터에서 불균형하게 분포하고 있는 것을 확인했다.

연속형 변수들의 분포 비교(target=0 / target=1)

타겟값이 0인 데이터와 1인 데이터들의 연속형 변수들의 분포 차이가 있는지 시각적으로 비교해봤다.
→ using kdeplot
대략적으로 봤을 때 target 값에 따른 연속형 변수들의 분포에 큰 차이는 없는 것으로 판단했다.

연속형 변수들의 상관관계

연속형 변수들의 상관관계를 깔끔하게 표현해봤다.
연속형 변수들의 관계를 정리해보면 다음과 같았다.
cont2와 cont1 의 눈에 띄는 양의 상관관계(0.86)를 보였다.
cont2와 cont1이 다른 변수들의 상관관계에 매우 비슷한 모습을 보인다. 둘 중 하나만 살려도 될 것 같다.
cont0과 cont10 도 0.81의 양의 상관관계를 보인다.
cont7과 cont10도 0.78의 양의 상관관계를 보인다.
cont7은 cont10과도 약 0.74의 양의 상관관계를 보이지만, 나머지 변수들과의 상관관계에 차이가 있으므로 둘 다 살려둔다.
cont3도 cont7과 높은 양의 상관관계, cont10과 높은 양의 상관관계를 보이지만 나머지 변수들의 상관관계에 차이가 있기 때문에 살려둔다.
count5와 count4가 높은 음의 상관관계를 보인다.
count5와 count3도 높은 음의 상관관계를 보인다.
count4와 count8도 높은 음의 상관관계를 보인다.

Target 변수와 연속형 변수들의 상관관계

눈에 띄는 양의 선형 관계나 음의 선형 관계는 보이지 않는다.