4장에서는 분류에 대해 전반적으로 공부했다. 분류에 가장 일반적으로 많이 사용하는 머신러닝 기법은 앙상블이다.
앙상블 기법은 대표적으로 배깅과 부스팅으로 나눌 수 있다.
배깅 방식은 학습데이터의 중복을 허용하면서 다수의 세트로 샘플링하여 다수의 약한 학습기가 학습한 뒤 최종 결과를 결합해 예측하는 방식이다. 대표적으로 랜덤포레스트가 있다.
랜덤 포레스트는 수행 시간이 빠르고 비교적 안정적인 예측 성능을 가진다는 장점이 있다.
요즘은 주는 부스팅 방식이다. 학습기들이 순차적으로 학습을 진행하면서 예측이 틀린 데이터에 대해서 가중치를 부여해 다음번 학습기가 학습할 때 보다 높은 정확도로 예측할 수 있도록 해준다. 전통적으로는 GBM이 있는데, 뛰어난 성능을 가지지만 수행 시간이 오래걸린다는 단점이 있다.
현재 가장 각광받는 방식은 XGBoost 와 LightGBM 다. LightGBM은 먼저 XGBoost보다 좀 더 빠르고 비슷한 성능을 보유한다. 이 둘은 모두 사이킷런 래퍼 클래스를 통해서 사이킷런의 다른 추정기들의 클래스와 동일한 방식으로 구현할 수 있다.