728x90

로지스틱 회귀의 설명변수(독립변수) Factor의

Level이 여러 개인 (다항변수) 경우

해당 Factor를 실제 모델에 넣을 수 있게 하려면, 어떻게 represent 할 것인가?

 For a factor with I levels, there are I - 1 non-redundant parameters. 
 We can arbitrarily set any one of them to 0.

• R default is to order the levels alphabetically and set B1 = 0. 
• When B1 = 0, a is the log odds at level 1.
• a + Bi is the log odds at level i, i = 2,..., I
• Bi is the log odds ratio between level i and level 1.
• Bj - Bi is the log odds ratio between levels j and i (i # j)

ANOVA-Type Representation

ANOVA-type representation은 하나의 기준 수준(reference level)을 정하고, 나머지 수준(level)들을 이 기준 수준과의 차이(즉, 로그 오즈 비)로 나타냄
햄버거 가게에 세 가지 메뉴(A, B, C)가 있다고 가정할 때, A를 기준 수준으로 설정함

 

이때, β_B는 B 메뉴가 기준(A)보다 얼마나 더 인기 있는지, β_C는 C 메뉴가 기준(A)보다 얼마나 더 인기 있는지 나타냄
이 방법은 기준 수준과 나머지 수준 간의 차이를 표현하며, I개의 수준이 있다면 I - 1개의 파라미터를 사용함
파라미터 수를 줄이고, 수준 간 차이를 해석하기 용이한 방식임


Dummy Variable Representation

Dummy variable representation은 각 수준(level)에 대해 이진 변수(0 또는 1)를 사용하여 표현함
햄버거 가게의 A, B, C 메뉴에 대해 각각의 dummy 변수는 다음과 같이 설정됨

로지스틱 회귀 모델에서의 표현은 다음과 같음

 

기준 수준(A)의 γ_A는 0으로 설정되며, B와 C 수준의 효과는 각각 γ_B, γ_C로 나타남
Dummy variable representation은 모든 수준을 독립적으로 표현하고, 각 수준의 존재 여부를 명확히 나타냄


ANOVA-Type vs Dummy Variable Representation

기준 수준 기준 수준과의 차이로 표현함 기준 수준도 포함하여 모두 독립적으로 표현함
파라미터 수 I - 1개의 파라미터를 사용함 I - 1개의 dummy 변수를 사용함
표현 방식 상대적으로 수준 간 차이를 표현함 절대적으로 각 수준을 개별적으로 표현함
해석 용이성 수준 간의 차이를 직관적으로 해석하기 쉬움 각 수준의 효과를 명확히 확인 가능함
복잡성 중복을 제거하여 상대적으로 단순함 조금 더 파라미터가 많아 상대적으로 복잡함

 

 


 

예시: 어떤 햄버거가 가장 인기 있는가?

ANOVA-Type Representation

기준 수준: 메뉴 A
B의 로그 오즈가 +1.5, C의 로그 오즈가 −0.5라면,

  • B는 A보다 인기가 많음
  • C는 A보다 인기가 적음

Dummy Variable Representation

 


결론

해석이 중요한 경우 ANOVA-Type이 기준과의 차이를 직관적으로 보여줘서 유리함
수준 간 독립적 효과가 필요한 경우 Dummy Variable Representation이 적합함
상황에 따라 두 방법 중 하나를 선택하여 활용해야 함

728x90

728x90

https://color-change.tistory.com/45

 

(총정리) 삼각함수 관련 공식

(총정리) 삼각함수 관련 공식 이 포스팅은 삼각함수에 관한 모든 공식을 총정리 한 것입니다. 중학교 과정부터 등장한 삼각함수의 정의부터, 고교 수학10-나, 수학2에 나오는 삼각함수까지 총망

color-change.tistory.com

https://blog.naver.com/PostView.naver?blogId=honeyeah&logNo=110155455259

 

삼각함수 공식 총 정리 ( 공통수학 ~ 수2 )

      공통수학부터 수2까지 이과용 삼각함수의 총 정리본입니다.   고1 이하의 학생...

blog.naver.com

https://blog.naver.com/samassy/222211907142

 

[미적분] [삼각함수의미분법] [sin미분] [cos미분] [tan미분] [csc미분] [sec미분] [cot미분]

미적분 삼각함수의 미분법 sin , cos , tan , csc , sec , cot 미분증명입니다. 삼각함수의 미분법 증명입...

blog.naver.com

 

728x90
728x90

https://gguguk.github.io/posts/CLT/#:~:text=%EC%A0%95%EC%9D%98,%EC%A0%95%EA%B7%9C%20%EB%B6%84%ED%8F%AC%EC%97%90%20%EC%88%98%EB%A0%B4%ED%95%A9%EB%8B%88%EB%8B%A4.

 

중심 극한 정리(CLT, Central Limit Theorem)

데이터 사이언스, 추천 시스템, Data Science, Recommender

gguguk.github.io

 

 

핵심은,

iid동일 모집단에서 추출된 표본들의 합(X1+X2+....Xn) 혹은 표본평균((X1+X2+....Xn)/n)

→ 모집단 분포와 관계없이 정규분포에 수렴한다

 

따라서,

 

가 성립하게 된다.


 

잠깐.. 기초 공식

#1

#2

 

#3

 대상이 벡터인 경우, 벡터의 분산은 -> 공분산 행렬 형태로 나타남

 

https://blog.naver.com/PostView.naver?blogId=waterforall&logNo=222789143718

 

[생존수학] 공분산(covariance) 및 공분산 행렬(covariance matrix), 공분산과 상관계수(correlation coefficient)

이 글을 읽기 전에, 기댓값(expected value)과 분산(variance)에 대해서 알고 있다고 가정합니다. 혹시, 그...

blog.naver.com

 

 

#적용 (1)

 


#1

 

#적용 (2)

 


# 정리 (1) 

 

1) Fisher informationscore function의 분산.

- 만약 score function이 벡터라면 Fisher information은 공분산 행렬이 됩니다.

2) Fisher information은 log-likelihood function에 대해서 음수의 2차 미분을 한 것

 

**

https://velog.io/@veglog/Fisher-Information


# 정리 (2)

https://blog.naver.com/sw4r/221174111918

 

 


https://blog.naver.com/sw4r/221112389275

 

 


https://blog.naver.com/sw4r/221174111918

 

[수리통계학] Score function 란?

정의 (Score function): log-likelihood function의 1차 미분 값을 Score function이라고 부른다. 여기서...

blog.naver.com

https://blog.naver.com/sw4r/221112389275

 

[수리통계학] Fisher Information / Observed Fisher Information 정의!

피셔 정보와 관찰된 피셔 정보의 내용에 대해서 알아보자. 피셔 정보의 정의는 로그 가능도 함수에 대해서 ...

blog.naver.com

 

728x90

'AI > Data Science' 카테고리의 다른 글

[Statistics] 기초통계학 정리  (0) 2024.10.02
삼각 함수 공식  (1) 2024.09.20
[Statistics] 유의성검정, 검정통계량, F-분포, 분산분석 etc.  (1) 2024.09.19
Symbols on prompt engineering  (0) 2024.07.26
프롬프팅 스킬  (0) 2024.07.22

+ Recent posts