딥러닝

분류기 성능, 제대로. 재기. (Recall, Precision, F1)

나빈스 코딩 2025. 4. 18. 19:46

결과는 대단하지만, 더 많은 데이터를 가져올 수록 정확도는 완전 떨어짐.

성능을 맞은 확률로만 볼게 아니라 다른 방법으로도 봐야한다.

실제로, 수집되는 데이터들이 편향적인 경우가 많아서 더더욱 중요하다.

 

True Positive

True Negative

False Positive

False Negative

가 있다.

 

항상 헷갈리는데 코로나 키트로 생각하면 된다.

보통 키트의 결과를 Positive(양성), Negative(음성)이라고 하지 않는가?

마찬가지로, 우리의 분류기가 참이라고 했으면 P이고, 거짓이라고 판별했으면 N으로 본다.

앞에 True, False는 그 분류기가 실제로 맞았는지 틀렸는지를 말한다.

키트가 오류가 있을 수 있듯이, 분류기도 마찬가지다.

 

예를 들어, 장미꽃을 구별하는 분류기가 False Positive = 0.8 라고 했을 때,

False : 분류기가 틀림

Positive: 분류기가 장미꽃이 맞다고 함

따라서, 장미꽃이 아닌데 맞다고 한 비율이 0.8이나 되니까 엉터리 분류기라는 걸 알 수 있다.

 

이 4가지를 알았으니,

이걸 이용한 지표 2가지를 알아보자.

평소에 우리가 쓰는건 "정확도"이다. (맞은갯수 / 전체갯수)

 

재현율 또는 민감도(recall)

Rec = TP / (TP+FN)

즉, 실제 코로나 양성인 사람들 중에 분류기가 맞춘 비율이다.

 

정밀도(precision)

Pre = TP / (TP+FP)

즉, 분류기가 맞다고 한 것 중에 실제 맞은 갯수이다.

코로나 양성으로 분류한 사람들 중에 실제 양성인 경우를 비율로 나타낸 것이다.

 

코로나키트처럼 감염자를 놓치지 않아야하는 경우 민감도가 높아야하고, (장벽이 낮음)

실력 있는 사람이 떨어져도 상관 없지만 뽑은 사람은 정말 실력있어야하는 채용 시스템의 경우 정밀도가 높아야한다. (장벽이 높음)

 

이처럼 민감도와 정밀도는 서로 바라보는 관점이 다르다.

하나만 사용할 경우 왜곡이 발생할 수 있다.

그래서 두 지표를 섞은 F1 점수도 있다.

출처: https://blog-ko.superb-ai.com/learn-the-metrics-used-for-model-diagnostics-and-how-to-use-them-part-2/

 

'딥러닝' 카테고리의 다른 글

CNN  (1) 2025.04.18
선형회귀 해보기  (0) 2025.04.18
IRIS 데이터 사용해보기  (0) 2025.04.18
시작해보기  (0) 2025.04.18