데이터 분석을 하다보면, 파생변수를 만들어야 할 때가 꽤 있다.
물론, 도메인에 대한 이해가 중요한 것은 맞다. 하지만, 포트폴리오나 주어진 데이터만 가지고 최적의 모델을 만들어야 할 때는 한계가 있기 때문에 어려운 것이 사실이다.
파생 변수를 만드는 방식에는 크게 두 가지로 나뉜다.
•
통계적 engineering
•
Auto feature engineering
물론, 통계적인 값들(평균, 편차, 중앙값 등) 을 사용해서 모델의 성능이 높아지는 경우도 있지만, 좀 더 효율적이고 정확성을 높이기 위해서는 AutoFeature engineering 방법을 선호한다.
결론적으로는 autoencoder 가 만병통치약처럼 많이 쓰인다
AutoEncoder
구현 단계는 아래와 같다.
•
기존 인풋에서 code로 encoding을 시켜준다.
•
그리고 그 code를 사용해서 다시 복원을 시켜준다.
•
즉 encoder가 잘 학습해서 좋은 code를 만들고, 그 좋은 code를 다시 decoder로 태웠을 때, 복원이 된다면
•
이 code는 input에 대해서 중요한 정보를 낮은 차원으로 잘 함축시켰다고 볼 수 있다.
따라서, 이 중요한 code를 데이터가 잘 합축된 중요한 요소로 보고, 얘를 새로운 파생변수로 쓰는 것이다.