Search

오차 행렬

이진 분류에서 사용되는 오차행렬은 정확도를 확인할 수 있음과 얼마나 예측하지 못하고 있는지도 확인할 수 있다. 또한 어떤한 유형의 예측 오류가 발생하고 있는지도 알 수 있다.
앞의 예제에서 사용한 MyFakeClassifier의 결과인 fakepred와 실제 결과인 y_test를 오차행렬 confusion_matrix() API를 활용해서 평가해보자.
from sklearn.metrics import confusion_matrix confusion_matrix(y_test,fakepred) ''' array([[405, 0], [ 45, 0]], dtype=int64) '''
Python
복사
오차행렬의 결과를 배열 형태로 출력해준다.
오차행렬의 결과로 정확도, 정밀도, 재현율을 모두 구할 수 있다.
참고로, 불균형한 데이터의 경우 가장 관심있는 레이블의 값을 1로, 그렇지 않은 레이블의 값을 0으로 설정한다. 이런 경우에는 일반적으로 값이 1인 데이터 수가 적기때문에 예측을 할 경우에 0으로 예측 정확도가 높아지는 경향이 발생한다. (사실 당연) 이런 경향으로 정확도 지표는 0에 대한 예측 정확도만을 가지고도 높은 예측 정확률을 낳게되는 오류가 발생