1. Stratified K - fold Cross Validation
전체 데이터를 k개의 부분 집합으로 나누고, 이를 순차적으로 교차하여 각각의 부분 집합이 test 셋으로 사용되도록 한다. 이렇게 함으로써 모든 데이터가 최소 한 번은 test 셋으로 사용되기 때문에 성능 평가의 신뢰성을 얻을 수 있다.
from sklearn.model_selection import StratifiedKFold
from sklearn.ensemble import RandomForestClassifier # 모델 선정
kfold = StrtifiedKFold(n_splits=5, shuffle = True, random_state = 42)
models = []
i = 0
for train_idx, valid_idx in kfold.split(X, y):
X_train, X_valid = X.iloc[train_idx], X.iloc[valid_idx]
y_train, y_valid = y.iloc[train_idx], y.iloc[valid_idx]
Random
Python
복사