Search

가변수 만들기

범주형 데이터를 독립된 열로 변환하는 것을 말한다.
범주형 데이터는 머신러닝 모델에 활용하기 위해 일반적으로 숫자로 변환해야 한다.
이 과정을 One-Hot Encoding 이라고 부르기도 한다.
get_dummies() 함수를 사용하거나 직접적인 Label Encoding 방식을 사용할 수 있다.
columns 옵션에 가변수를 만들 대상 열을 리스트로 지정해서 한번에 처리한다.
get_dummies() 처리 후, 변수간의 다중공선성 문제를 없애기 위해서 하나의 더미 변수는 제거하는 작업이 필요하다.
drop_first = True 로 지정한다.
# 가변수화: sex dumm_cols = ['sex'] pd.get_dummies(tip, drop_first=True, columns=dumm_cols, dtype=int)
Python
복사