Search

분류의 개요

지도학습은 레이블이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식이다. 분류는 다양한 알고리즘으로 구현할 수 있다.
나이브 베이즈
로지스틱 회귀
결정 트리
서포트 벡터 머신
최소 근접
신경망
앙상블
이번 장에서는 앙상블 방법을 집중적으로 알아볼 것이다. 앙상블은 분류에서 가장 각광받는 방법 중 하나다.
정형 데이터의 예측 분석 영역에서 앙상블이 매우 높은 예측 성능으로 애용되고 있다.
앙상블 기법의 성능을 높이는 방법은 크게 두가지 방법으로 나눌 수 있는데, 첫번째각기 다른 알고리즘으로 학습시키는 것이고 두번째같은 알고리즘을 사용하되, 훈련 데이터셋의 서브셋을 무작위로 구성해서 각 분류기를 다르게 학습시키는 것이다.
일반적으로 배깅부스팅 방식으로 나뉜다.
1.
배깅 :
a.
랜덤 포레스트
2.
부스팅 :
a.
그래디언트 부스팅
b.
Xg부스트
c.
LightGBM
근래에는 부스팅 방식이 계속해서 발전하고 있다.
앙상블의 앙상블이라고 불리는 스태킹 기법에 대해서도 알아볼 것이다.
앙상블은 대부분 동일한 알고리즘을 결합한다.
앙상블은 매우 많은 여러 개의 약한 학습기를 결합해 확률적 보완과 오류가 발생한 부분에 대한 가중치를 계속 업데이트하면서 예측성능을 향상시킨다.