Search

구간화

1.
지정 길이 기반 구간화
# pd.cut 함수 사용 # 구간 경계값 설정 bins = [0, 100, 500, np.max(df['컬럼'])] names = ['low','medium','high'] df['구간컬럼'] = pd.cut(df['컬럼'], bins, labels=names)
PowerShell
복사
2.
분포 기반 구간화
: 구간별 데이터의 개수가 동일하도록 설정
# pd.qcut 함수 사용 # 구간의 개수 설정 n = 3 df['구간컬럼'] = pd.qcut(df['컬럼'], n, labels=names)
PowerShell
복사
< qcut 실행 시 주의할 점 > - 데이터가 지나치게 skewed한 경우, 적합하지 않다. - 그럴 경우, 사용자 기준 기반 범주화가 더 적합하다.