프로젝트 쿼리 내용과 시각화 내용을 확인하시려면 위 링크를 눌러주세요
Preview
•
목적 : 이진 분류 모델 개발 및 예측
•
역할 : 데이터 전처리, 분석 및 시각화, 모델 개발 및 예측
•
성과 : 분석 EDA 과정을 통한 인사이트 도출 및 모델 최적화
분석의 목적
Kaggle의 대표 이진 분류 문제로, 어떤 탑승객이 (transported → 1: 이전 O , 0: 이전 X) 잘못된 차원으로 이전됐는지 예측하는 분류 모형을 개발하는 것이 이 프로젝트의 목적입니다.
결론
EDA
1) 행성 Europa(지구) 출신 탑승객
Europa(지구) 출신 탑승객이 타 행성 출신 탑승객보다 잘못된 지역으로 도착한 비율이 높은 것을 확인했습니다.
2) VIP 고객
전체 탑승객 중 VIP 고객은 2% 밖에 되지 않습니다.하지만, 잘못된 지역으로 도착한 탑승객들의 40% 가 VIP 라는 점을 참고해봤을 때 유의미한 관계를 생각해볼 수 있습니다.
3) 10살 이하의 아이들
연령대중에서 10살 이하의 아이들이 잘못 이전된 비율이 가장 큰 것을 확인했습니다.
Model
1) RandomForest
트리모델, 나이브베이즈 모델, 이웃근접모델, 로지스틱 모델, 부스팅 모델 등의 정확도 점수를 비교해본 결과, RandomForest 가 0.80으로 가장 학습 정확도가 높았습니다.
진행 과정
한계점 및 아쉬운 점
LEARN | PROBLEM | TRY |
• 결측치 처리 시 일반적인 대치법과 회귀 추정의 방식으로 나뉜다는 것을 배웠습니다.
• 기존의 데이터를 적절하게 가공해서 y를 예측하는데 유의미한 새 변수를 만들 수 있었습니다.
• 기본적인 시각화 라이브러리 (seaborn, matplotlib 등)를 활용할 수 있었습니다.
• 상관관계를 활용해서 변수들의 관계를 파악하였습니다. | - 모델 튜닝과정에서 크게 개선된 결과를 얻지 못했습니다.
- 각 모델마다 튜닝 과정을 정확하게 구현하지 못했습니다.
- 프로젝트의 완성도가 낮아 보강할 필요가 있습니다. | • 주성분분석을 통해 차원을 축소한 모델과 비교해보는 프로젝트를 진행해보고 싶습니다.
• AutoFeature Engineering 방법을 활용해서 파생 변수를 만들어보는 과정을 시도해보고 싶습니다.
• 인공신경망 모델을 학습한 뒤 모델 비교 분석을 진행해보고 싶습니다. |