분석 목표
•
이진 분류 예측 프로젝트
•
cat0 ~ cat18 : 범주형 변수
•
cont0 ~ cont10 : 연속형 변수
간단한 이진 분류 프로젝트다. kaggle 에서 기본적인 머신러닝 분류 예측에 용이한 과제 중 하나를 제공했다.
전처리
결측치
훈련 데이터와 테스트 데이터 모두, 결측치는 없는 깔끔한 데이터다.
변수 특징
•
범주형 데이터의 범주는 무수히 많은 변수부터, 범주가 적은 데이터까지 다양하다.
•
연속형 데이터의 경우, 평균과 중위수 값에 큰 차이가 없다. → 이상치가 많이 없다고 생각해볼 수 있다.
◦
왜도와 첨도를 확인해서 정규분포와의 유사 정도를 확인해볼 수 있다
EDA
Target 값의 분포 확인
타겟값은 이진 값으로 0 또는 1의 값이다. 학습 데이터를 통해서 각 데이터의 분포가 어떻게 되어있는지 확인해봤다.
0의 값이 약 22만개, 1의 값은 약 8만개로 학습 데이터에서 불균형하게 분포하고 있는 것을 확인했다.
연속형 변수들의 분포 비교(target=0 / target=1)
타겟값이 0인 데이터와 1인 데이터들의 연속형 변수들의 분포 차이가 있는지 시각적으로 비교해봤다.
→ using kdeplot
대략적으로 봤을 때 target 값에 따른 연속형 변수들의 분포에 큰 차이는 없는 것으로 판단했다.
연속형 변수들의 상관관계
연속형 변수들의 상관관계를 깔끔하게 표현해봤다.
연속형 변수들의 관계를 정리해보면 다음과 같았다.
•
cont2와 cont1 의 눈에 띄는 양의 상관관계(0.86)를 보였다.
◦
cont2와 cont1이 다른 변수들의 상관관계에 매우 비슷한 모습을 보인다. 둘 중 하나만 살려도 될 것 같다.
•
cont0과 cont10 도 0.81의 양의 상관관계를 보인다.
•
cont7과 cont10도 0.78의 양의 상관관계를 보인다.
◦
cont7은 cont10과도 약 0.74의 양의 상관관계를 보이지만, 나머지 변수들과의 상관관계에 차이가 있으므로 둘 다 살려둔다.
◦
cont3도 cont7과 높은 양의 상관관계, cont10과 높은 양의 상관관계를 보이지만 나머지 변수들의 상관관계에 차이가 있기 때문에 살려둔다.
•
count5와 count4가 높은 음의 상관관계를 보인다.
•
count5와 count3도 높은 음의 상관관계를 보인다.
•
count4와 count8도 높은 음의 상관관계를 보인다.
Target 변수와 연속형 변수들의 상관관계
눈에 띄는 양의 선형 관계나 음의 선형 관계는 보이지 않는다.