본문 바로가기

데이터와 함께 탱고를/머신러닝

회귀 모델에 대한 성능 평가 지표들

MSE (Mean Squared Error)

가장 일반적이고 직관적인 에러 지표.
에러를 제곱하여 평균을 계산하니, 값은 낮을수록 좋다.

  • 장점
    • 지표 자체가 직관적이고 단순하다.
  • 단점
    • 스케일에 의존적이다.
      • 예를 들어, 삼성전자의 주가가 1000000원이고 네이버가 70000원일 때,
        두 주가를 예측하는 각각 모델의 MSE 가 똑같이 5000이 나왔을 경우, 분명 동일한 에러율이 아님에도, 동일하게 보여짐.
    • 에러를 제곱하기 때문에, 1미만의 에러는 더 작아지고, 그 이상의 에러는 더 커진다.
      • 즉 값의 왜곡이 있음.

RMSE (Root Mean Squared Error)

MSE 에 Root 를 씌운 에러 지표.
마찬가지로 값은 낮을수록 좋다.

장단점은 MSE 를 거의 그대로 따른다.
다만, 여기서는 제곱된 에러를 다시 루트로 풀어주기 때문에 에러를 제곱해서 생기는 값의 왜곡이 좀 덜하다.
또, MSE 경우 제곱된 에러 값을 그대로 보는 한편, RMSE 는 에러 그자체의 평균을 보다 직관적으로 보여준다.

MAE (Mean Absolute Error)

절대값(에러 - 실제값) 의 평균인 에러 지표.
에러의 절대 값 그 자체를 나타내기 때문에, 값은 낮을수록 좋다.

  • 장점
    • 매우 직관적인 지표라 성능지표를 잘 모르는 누군가에게 MAE 로 설명하기가 매우 좋다.
      • 예를 들어, 자전거 대여 개수 예측모델에서 MAE 가 3이 나왔으면,
        평균적으로 이 모델은 자전거 3대 정도를 잘못 예측한다. 라고 얘기할 수 있다.
  • 단점
    • 스케일에 의존적이다.
      • MSE 에서 말한 단점과 동일하다.

R Squared

추후 작성 예정

Adjusted R Squared

추후 작성 예정

Mean Square Percentage Error (MSPE)

추후 작성 예정

Mean Absolute Percentage Error (MAPE)

추후 작성 예정

Root Mean Squared Logarithmic Error (RMSLE)

추후 작성 예정