원문 출처. 아래 내용을 인용하여 정리함 (아주 잘 정리되어있으니 대추천!!)
https://agronomy4future.org/?p=2295
단순 선형 회귀분석의 결정계수 (R-squared) 를 가장 쉽게 설명해 보자 - Agronomy4future
위와 같은 x, y 데이터가 있습니다. 독립변수 x 에 따라 종속변수 y 가 변하는 이 데이터의 회귀모형, y= β0 + β1x 을 구하고자 합니다. 그냥 통계 프로그램에 데이터를 넣으면 바로 값이 나오지만
agronomy4future.org
https://agronomy4future.org/?p=9774
공분산 (Covariance) 에 대해 아주 쉽게 설명해 보자 (feat. 상관계수) - Agronomy4future
해당 영상은 공분산과 상관계수에 대해 영어버전으로 제작해 놓은 영상입니다. 참조하시면 개념을 이해하시는데 도움이 되실 겁니다. 이번 시간에는 공분산 (Covariance) 에 대해 설명해 보겠습니
agronomy4future.org
1. R-squared (결정계수)
정의: (단순 선형 회귀분석에서) 전체 제곱합 중에서 회귀 제곱합이 차지하는 비율
- R-squared가 높을 수록 "우리가 추정한 회귀 모형이 더 적합하다"고 볼 수 있음.
*x에 반응하는 y값이 거의 같은 값(constant)일 경우: R-squared 는 극도로 낮아짐
* 만일 y값이 완전 다 똑같다면 R-squared 는 계산되지 않음
SST = SSR + SSE
Data = Fit + Error
Data = Regression + Residual
SST = Sum of Squares Total; [실제 개별 y값에서 그 y 값 전체의 평균을 뺀값 (yi – ȳ)]의 제곱합
SSR = Sum of Squares due to regression; [예측된 개별 y 값에서 실제 y 값 전체의 평균을 뺀 값 (ŷi-ȳ)]의 제곱합
SSE = Sum of Squared Error; [실제 개별 y 값에서 예측된 개별 y 값을 뺀 값 (yi-ŷi)]의 제곱합
*ANOVA: ANalysis Of VAriance (분산분석), 각 데이터의 분산에 대한 해석.
- 상관계수(r)의 제곱 == R-squared 값
=> 결정계수 R-squared에 루트 == 상관계수 값!
2. 공분산(Covariance)
2.1 공분산 개념 이해의 필요성
: 변수 간 상관관계를 분석하는 '상관분석'이 '공분산' 개념을 base로 함. => 상관분석에 앞서 공분산 이해가 선행!
: 그러나, 이따 다루겠지만, 상관계수량와 공분산량이 아주 직접적인 상관성을 갖지는 않음,,
그저 상관계수 공식에서 공분산 공식이 사용될 뿐. (positive인지 negative인지 정도는 구분 가능)
2.2 공분산
: 두 변수간의 선형관계를 나타내는 값.
- 하나의 변수가 증가 혹은 감소함에 따라 ➡️ 다른 변수는 어떻게 그 증감에 반응하는지에 대한 측도
2.3 공분산 계산
- [x의 개별 편차(xi - x̄) X y의 개별편차(yi - ȳ)]의 sum / 자유도 (n-1)
- 우리 데이터가 모집단이 아닌 표본집단이면 n이 아닌 n-1로 나눔
2.4 공분산 해석
*공분산은 제곱합이 아니므로, 음수가 나올 수 있음
- 공분산이 양수; 두 변수가 양의 상관관계
- 공분산이 음수; 두 변수가 음의 상관관계
2.5 공분산은 클수록 좋을까?(=공분산이 클수록 상관계수가 높을까?)
Q. “공분산은 무조건 커야 좋은 것일까?”
A. 공분산의 크기가 아니라 변수의 표준편차에 따라 달라진다” 라고 하는게 더 정확한 표현.
2.5.1 상관계수 r 계산
*상관계수 공식을 보면 여러 공식이 존재하는 것 같지만 사실은 모두 {공분산 / x, y 표준편차의 곱} 의 공식에서 다 수정된 것들.
2.5.2 <공분산과 상관계수 r의 관계> 결론
*상관계수는 공분산과 두 변수의 표준편차의 곱의 비율이기 때문에 공분산 값의 크기 그 자체는 아무런 의미가 없음. 하지만 공분산값의 부호를 통해 -> 두 변수가 양의 관계인지 음의 관계인지는 알 수 있음. |
2.5.3 왜 실제로는, 공분산값이 아닌 상관계수 r값을 주요 지표로 사용하는가?
공분산은 두 편차의 곱을 자유도로 나눈것이기 때문에 원래의 측정치 보다는 무척이나 큰 값
분산의 경우, 원래의 값의 크기로 돌리기 위해 루트를 씌운 표준편차를 사용.
공분산도 마찬가지로 원래의 값 크기로 돌려야 하므로, 공분산에 x, y 표준편차의 곱을 나눠주어야 하고, 그 값이 상관계수 r.
양질의 자료 제공해주신 agronomy4future님께 다시 한번 감사합니다:)
*Covariance Matrix
https://www.youtube.com/watch?v=152tSYtiQbw
'AI > Data Science' 카테고리의 다른 글
[Data Science] 내적 유사도 (0) | 2023.07.12 |
---|---|
[Numpy] dot, norm, l2, repeat, tile, reshape (0) | 2023.07.09 |
GPU 서버 접속 (0) | 2023.07.08 |
[ML] cs4780 / Curse of Dimensionality, 차원의 저주 (0) | 2023.07.01 |
헷갈리는 수학기호 정리 (0) | 2023.06.30 |