회귀분석을 진행하고 모델을 평가할 때 Pearson Coefficient와 Coefficient of Determination를 Metric(평가지표)로서 사용하는 경우가 많습니다.
Pearson Coefficient는 주로 r이라고 표현하고
Coefficient of Determination은 주로 r^2으로 편합니다.
그로 인해 Pearson Coefficient를 제곱 하면 Coefficient of Determination을 얻을 수 있다는 생각을 하기 쉬운데요 이는 특수한 경우에만 해당될 뿐 엄연히 다른 개념으로서 다른 목적을 갖고 있다는 것을 인지해야 합니다.
자세한 설명은 다음과 같습니다.
1. Pearson Coefficient (r)
Pearson Coefficient는 두개의 variables간의 선형적인관계를 측정하는 지표입니다. 보통의 경우 실제(true)와 예측(predict)
이 값의 범위는 [-1,1]으로 정해지고 두 variables의 관계가 양의 상관관계를 가질수록 경우 1에 가까워지고, 음의 상관관계를 가질수록 -1에 가까워집니다.
0을 나타낼 경우 두 variables에는 아무런 상관관계가 없음을 나타냅니다.
계산 식은 다음과 같습니다.
~~~~
2. Coefficient of Determination (r^2)
Coefficient of Determination은 regression모델이 얼마나 fit한지를 측정하는 지표입니다.
이는 새롭게 예측하는 variable들이 기존의 모델에 의하여 어느정도 설명이 되는지 (커버가 되는지, 예측이 되는지)를 예측하는 지표로서 높은 값을 가질 수록 모델이 fit하다고 생각 할 수 있습니다.
이 값의 범위는 [0,1]로 정해지기 때문에 1에 가까울수록 모델이 fit하다고 생각 할 수 있습니다.
특별한 경우에 r^2 값의 음수가 되는 경우가 있습니다. 이는 모델이 전혀 data에 의해 설명이 되지 않다는 의미이고, 평균으로만 이루어진 baseline model보다 설명력이 낮다는 의미입니다. 즉 모든 data에 대한 특징을 전혀 찾아내지 못했다는것을 의미합니다.
계산식은 다음과 같습니다.
~~
이 둘은 같지도 않고 목적또한 다릅니다.
Pearson Coefficient는 두개의 variables의 선형적인 관계의 방향이나 세기를 나타내는것이고,
Coefficient of Determination은 regression model의 fit한정도를 나타내는 것 입니다.
variables의 선형적인 관계의 방향,세기의 값을 제곱한것과 regression model의 fit한정도를 나타내는 것이 같을 순 없겠습니다.
'Have Done > ETC.' 카테고리의 다른 글
[폰트 비교] 폰트별 느낌을 보고싶어! (0) | 2024.05.23 |
---|---|
Docker란 무엇이냐.. (0) | 2023.12.27 |
[Color Channel] ARGB(RGBA) vs RGB (0) | 2022.03.16 |
GNN(Graph Neural Network) (0) | 2022.03.15 |
Few-Shot learning (0) | 2022.03.15 |
댓글