728x90

가설검증 Hypothesis Testing

가설검증(Hypothesis Testing): 주어진 데이터가 어떤 가설을 지지하는지 또는 반박하는지를 판단하는 과정
 
**

통계학에서 **검정**과 **검증**은 비슷해 보이지만 다른 의미를 가지고 있습니다.

1. **검정 (Hypothesis Testing)**:
   - 검정은 특정 가설이 통계적으로 유의미한지 여부를 판단하는 과정입니다. 
   - 예를 들어, 두 집단의 평균이 동일한지 검정하는 t-검정이나, 분산이 같은지 검정하는 F-검정 등이 있습니다.
   - 검정의 결과로 귀무가설(보통 "차이가 없다"는 가설)을 기각할지 여부를 결정합니다. 검정의 핵심은 데이터로부터 얻은 증거가 가설을 지지할 만큼 충분한지 평가하는 것입니다.

2. **검증 (Verification)**:
   - 검증은 어떤 모델이나 시스템, 방법론이 제대로 작동하는지 확인하는 과정입니다.
   - 이는 실험이나 관찰을 통해 주어진 조건 하에서 이론적 주장이나 방법이 실제로 일치하는지를 점검하는 것입니다.
   - 예를 들어, 통계 모델을 만들었을 때, 그 모델이 실제 데이터를 잘 설명하는지를 검증합니다.

정리하자면, **검정**은 주어진 가설이 데이터에 의해 지지되는지를 평가하는 과정이고, **검증**은 이론이나 모델이 제대로 작동하는지를 확인하는 과정입니다.


두 가지 가설을 세우고, 

  • 귀무가설(Null Hypothesis, 𝐻0): 일반적으로 기존의 믿음이나 가정, 또는 차이가 없음을 주장하는 가설임.
  • 대립가설(Alternative Hypothesis, 𝐻1): 귀무가설과 반대되는 주장으로, 차이나 효과가 있음을 주장하는 가설임.

통계적 방법을 통해 이들 가설을 검증하는 방식


가설검증=검정의 단계

가설검증은 다음과 같은 단계로 이루어짐

  1. 가설 설정:
    • 귀무가설 (𝐻0): 데이터에 차이가 없다고 주장함
    • 대립가설 (𝐻1): 데이터에 차이가 있다고 주장함
  2. 유의수준 설정 (𝛼):
    • 일반적으로 0.05나 0.01 같은 값
    • 귀무가설이 참일 때, 잘못 기각할 확률 (False Positive이 확률)
  3. 검정 통계량 계산:
    • 데이터를 기반으로 검정 통계량을 계산함.
    • 이 통계량은 보통 표준정규분포(Z-검정), t-분포(t-검정) 등 여러 가지 방법이 있음.
  4. p-값 계산:
    • 검정 통계량주어진 분포에서 어느 정도의 극단적인 값을 갖는지를 계산함.
    • p-값: 귀무가설(영가설)이 참일 때, 검정 통계량이 현재 관측된 값보다 극단적인 값을 가질 확률임.
  5. 결정:
    • p-값을 유의수준 (𝛼)와 비교
    • if p값 <  𝛼, 귀무가설을 기각하고 대립가설을 채택 (실험 결과 P값이 작아야 실험 가정이 유의하다)
    • p-값이 𝛼보다 크면, 귀무가설을 기각하지 않음

 


예시

예제: 평균 비교

두 집단의 평균이 같은지 비교 -> 신약이 기존 약보다 효과가 있는지를 검증한다고 가정

  1. 가설 설정:
    • 𝐻0: 두 집단의 평균이 같음 (𝜇1=𝜇2)
    • 𝐻1: 두 집단의 평균이 다름 (𝜇1≠𝜇2)
  2. 유의수준 설정:
    • 𝛼=0.05
  3. 검정 통계량 계산:
    • t-검정을 사용해 두 집단의 평균 차이를 검정
  4. p-값 계산:
    • 계산된 t-값에 대응하는 p-값을 찾음
  5. 결정:
    • p-값이 0.05보다 작으면, 귀무가설을 기각하고 신약이 기존 약과 효과가 다르다고 결론지음.

유형별 가설검증

가설검증에는 여러 유형이 있음:

  • Z-검정: 표본 크기가 크고, 모분산이 알려진 경우
  • t-검정: 표본 크기가 작고, 모분산이 알려지지 않은 경우
  • 카이제곱검정: 범주형 데이터의 독립성이나 적합성 검정에 사용
  • F-검정: 두 집단의 분산 비교에 사용

가설검증의 오류

가설검증에서는 두 가지 주요 오류가 발생할 수 있음:

  • 제1종 오류 (Type I Error): 귀무가설이 참인데 기각하는 오류 (유의수준 𝛼)
    • False Positive
    • 예시: 암 진단 검사에서 실제로 암이 없는데도 검사가 암이 있다고 잘못 진단하는 경우
    • 유의수준 (𝛼): 제1종 오류가 발생할 확률. 연구자가 설정하는 값으로, 보통 0.05 (5%)나 0.01 (1%) 같은 값을 사용
      • 의미: 라면, 귀무가설이 참일 때 5%의 확률로 귀무가설을 잘못 기각할 수 있다
  • 제2종 오류 (Type II Error): 귀무가설이 거짓인데 기각하지 않는 오류 (베타 𝛽)
    • False Negative
    • 예시: 암 진단 검사에서 실제로 암이 있는데도 검사가 암이 없다고 잘못 진단하는 경우
    • 베타 (𝛽): 제2종 오류가 발생할 확률. 유의수준과 달리 보통 명시적으로 설정되지 않고 계산을 통해 결정
      • 검정력 (Power): 1 - 𝛽를 검정력이라고 함. 실제로 대립가설이 참일 때 이를 올바르게 기각할 확률
      • 검정력이 높을수록 좋은 검사.

 


제1종 오류와 제2종 오류 Trade-off

𝛼를 낮추면 제1종 오류의 확률은 줄어들지만, 𝛽는 증가해서 제2종 오류의 확률이 커질 수 있음
vice versa

오류 조절 방법

  • 유의수준 (𝛼) 조정: 보통 연구자는 𝛼α를 0.05나 0.01로 설정하지만, 문제의 심각성에 따라 더 낮추거나 높일 수 있음.
  • 표본 크기 증가: 표본 크기를 늘리면 검정력이 높아져서 제2종 오류의 확률을 줄일 수 있음. 이는 더 많은 데이터를 수집함으로써 오류를 줄이는 방법임.
  • 효과 크기 증가: 효과 크기가 클수록 검정력이 높아져서 제2종 오류의 확률이 줄어듦. 연구 설계를 통해 더 뚜렷한 차이를 만들 수 있는 방법을 고려할 수 있음.

 

* P_err = Total probablility of error of a binary hypothesis test
 
 
 
*일부 gpt를 활용하여 작성함

728x90

+ Recent posts