모집단(population)이란 정보를 얻고자 하는 관심 대상의 전체집합(집단 전체)
모수(population parameter)란 모집단 분포 특성을 규정 짓는 척도. 관심의 대상이 되는 모집단의 ‘대표값’.
표본(sample)은 모집단(population)의 부분집합
표본통계량(sample statistic)이란 표본의 몇몇 특징을 수치화한 값
확률변수(random variable): 확률현상에 기인해 결과값이 확률적으로 정해지는 변수
- 확률현상; 어떤 결과들이 나올지는 알지만 가능한 결과들 중 ‘어떤 결과가 나올지는 모르는’ 현상 (ex. 동전을 던졌을 때 나오는 면)
- 확률변수는 상수가 아닌 ‘변수’이다. 우리 주변에 확률적인 현상이 존재할때, 확률변수는 확률적으로 정해지는 것이고, 현상에 따라 변화할 수 있기 때문이다.
- 확률변수의 예시: 확률변수 X = 100원짜리 동전을 한 번 던졌을 때 이순신 장군이 나오는 횟수, P(X) = 1/2
확률분포(probability distribution)은 확률변수가 ‘특정한 값을 가질 확률’을 나타내는 ‘함수’
- 확률분포의 종류: 확률변수의 종류에 따라 둘로 나뉨
- 이산확률분포(discrete p.b.): 이산확률(확률변수가 가질 수 있는 ‘값의 개수를 셀 수 있는’ 경우)의 확률분포. (e.g. X=주사위를 던져서 나오는 눈의 개수일 때 1,2,3,4,5,6)
- 확률질량함수(probability mass function, pmf): 이산확률변수에서 특정 값에 대한 확률을 나타내는 함수 (e.g. X=주사위를 던져서 나오는 눈의 개수, f_x(1) = P(X=1) = 1/6)
- 이산확률분포의 종류: 베르누이분포와 이항분포, 기하분포와 음이항분포, 초기하분포, 포아송분포)
- 연속확률분포(continuous p.b.): 연속확률변수(확률변수가 가질 수 있는 ‘값의 개수를 셀 수 없는’ 경우)의 확률분포 (e.g X=중학교 학생의 키)
- 확률밀도함수(probability density function, pdf): 연속확률변수가 ‘특정 구간’에 포함될 확률
- 누적분포함수(cumulative distribution function, pdf): 주어진 확률 변수가 특정 값보다 작거나 같은 확률
- 연속확률분포의 종류: 정규분포, 감마분포, 지수분포, 카이제곱분포, 베타분포, 균일분포
- 이산확률분포(discrete p.b.): 이산확률(확률변수가 가질 수 있는 ‘값의 개수를 셀 수 있는’ 경우)의 확률분포. (e.g. X=주사위를 던져서 나오는 눈의 개수일 때 1,2,3,4,5,6)
독립항등분포(iid, independent and identically distributed): 두 개 이상의 확률변수를 고려할 때, 각 변수들이 통계적으로 독립이고, 동일한 확률분포를 가지고 있을 때, 독립항등분포를 따른다고 함.
베타분포(Beta Distribution): 두 매개변수 α와 β에 따라 [0, 1] 구간에서 정의 되는 연속확률분포
*α와 β; 분표의 형태를 결정짓는 모수
- 쓰임새: 베이지안에서 사전확률을 가정할때 베타분포를 가정. (모수에 따라 다양한 형태로 변형 가능하기 때문, 사전정보가 없는 상황에서는 베타분포를 많이 가정한다고 함)
- 베타함수를 이용
Reference:
'AI > Data Science' 카테고리의 다른 글
[Data Science] NN에서 Backpropagation (0) | 2023.07.17 |
---|---|
[Data Science] Loss function, Cross Entropy, Log-likelihood (0) | 2023.07.16 |
[Numpy] np.random / np.maximum (0) | 2023.07.13 |
[Data Science] 내적 유사도 (0) | 2023.07.12 |
[Numpy] dot, norm, l2, repeat, tile, reshape (0) | 2023.07.09 |