Search
🚀

Spaceship Titanic 예측 모델 개발

상태
완료
Colab 링크
Tools
Python
2 more properties
프로젝트 쿼리 내용과 시각화 내용을 확인하시려면 위 링크를 눌러주세요
Preview
목적 : 이진 분류 모델 개발
역할 : 데이터 전처리, 분석 및 시각화, 모델 개발
성과 : 모델 최적화 과정과 분석 EDA 과정을 통한 인사이트 도출

 분석의 목적

Kaggle의 대표 이진 분류 문제로, 어떤 탑승객이 transported (1: 이전, 0: 이전 X) 잘못된 차원으로 이전됐는지 예측하는 분류 모형을 개발하는 것이 이 프로젝트의 목적입니다.

 결론

EDA

1) 행성 Europa(지구) 출신 탑승객

Europa(지구) 출신 탑승객이 타 행성 출신 탑승객보다 잘못된 지역으로 도착한 비율이 높은 것을 확인했습니다.

2) VIP 고객

전체 탑승객 중 VIP 고객은 2% 밖에 되지 않습니다.하지만, 잘못된 지역으로 도착한 탑승객들의 40% 가 VIP 라는 점을 참고해봤을 때 유의미한 관계를 생각해볼 수 있습니다.

3) 10살 이하의 아이들

연령대중에서 10살 이하의 아이들이 잘못 이전된 비율이 가장 큰 것을 확인했습니다. 또한, 연령대별로 약 절반가까이 모두 잘못 이전된 것을 확인했습니다.

Model

1) RandomForest

트리모델, 나이브베이즈 모델, 이웃근접모델, 로지스틱 모델, 부스팅 모델 등의 정확도 점수를 비교해본 결과, RandomForest 가 0.80으로 가장 학습 정확도가 높았습니다.

 진행 과정

 진행 과정은 페이지 상단 GitHub 링크에서 확인하실 수 있습니다.

 한계점 및 아쉬운 점

LEARN
PROBLEM
TRY
• 결측치 처리 시 일반적인 대치법과 회귀 추정의 방식으로 나뉜다는 것을 배웠습니다. • 기존의 데이터를 적절하게 가공해서 y를 예측하는데 유의미한 새 변수를 만들 수 있었습니다. • 기본적인 시각화 라이브러리 (seaborn, matplotlib 등)를 활용할 수 있었습니다. • 상관관계를 활용해서 변수들의 관계를 파악하였습니다.
- 모델 튜닝과정에서 크게 개선된 결과를 얻지 못했습니다. - 각 모델마다 튜닝 과정을 정확하게 구현하지 못했습니다. - 프로젝트의 완성도가 낮아 보강할 필요가 있습니다.
• 주성분분석을 통해 차원을 축소한 모델과 비교해보는 프로젝트를 진행해보고 싶습니다. • AutoFeature Engineering 방법을 활용해서 파생 변수를 만들어보는 과정을 시도해보고 싶습니다. • 인공신경망 모델을 학습한 뒤 모델 비교 분석을 진행해보고 싶습니다.