코딩하는 해맑은 거북이

[확률및통계] 기초통계입문 본문

Mathematics | Statistics

[확률및통계] 기초통계입문

#CJE 2022. 8. 2.
본 게시물의 내용은 '데이터 분석을 위한 통계 기초 개념(메타코드M)' 강의를 듣고 요약하여 작성하였다.

 

1. 통계

- 모집단(Population) : 통계학에서 관심/조사의 대상이 대는 개체의 전체 집합 
- 모수(Parameter) : 모집단에 대한 수치적 요약
- 표본(Sample) : 모집단을 적절히 대표하는 모집단의 일부
- 통계량(Statistic) : 표본에 대한 수치적 요약

→ 통계 : 표본에서 추출한 표본통계량을 통해서 모집단의 모수를 추정하는 것

 

 

2. 자료의 종류

1) 범주형 자료 
- 명목형 자료 : 단순히 속성을 분류하는 자료 (혈액형)
- 순서형 자료 : 상대적인 크기 비교 (만족도,학력)

2) 양적 자료
- 이산형 자료 : 셀 수 있음 (빈도 수, 불량품의 수) 
- 연속형 자료 : 셀 수 없음 (길이, 시간)

 

 

3. 통계량

1) 중심

- 최빈값(Mode) : 발생 빈도가 가장 높은 값 (극단값 영향X)
- 중앙값(Median) : 크기 순으로 정렬된 자료에서 가운데 위치하는 값 (극단값 영향X)
- 산술 평균(Arithmetic Mean) : 모든 값을 더하여 자료의 수로 나누어 준 값 (극단값 영향O)


- 가중 평균(Weighted Mean) : 자료의 중요성이 각기 다른 경우 중요도에 따라 가중치를 부여한 평균


- 기하 평균(Geometric Mean) : 자료가 성장률, 증가율등 앞 시점에 대한 비율로 나타난 경우 유용한 통계량 

 

2) 산포

- 분산 (Variance) : 편차 제곱의 합을 자료의 수로 나눈 값


- 표준편차 (Standard Deviation) : 분산을 제곱근 한 값

 

3) 형태

- 왜도 (Skewness) : 분포의 비대칭도
cf) 왜도가 양수일때, 왼쪽으로 치우친 모양 / 오른쪽으로 꼬리가 긴 모양 / 최빈값<중앙값<평균값

- 첨도 (Kurtosis) : 뾰족한 정도

cf) 표준정규분포의 첨도는 3

 

4) 상관

- 상관 (Correlation) : 변수들 간의 선형적 관련성을 파악함
- 공분산 (Covariance) : 공분산은 두 개의 확률 변수의 선형관계를 나타내는 값


- 상관계수 (Correlation Coefficient) : 두 양적 변수 간의 선형적 연관성의 강도를 측정하는 것.

확률변수의 절대적 크기에 영향을 받지 않도록 공분산을 단위화 시킨 값으로 공분산을 두 변수의 표준편차의 곱으로 나눈 값

(-1 < r < 1 값을 가지고, 0이면 두 변수간 상관관계가 없고, 절댓값이 1에 가까울 수록 연관성의 강도가 높다)

 

 

4. 확률과 확률 변수

1) 확률정의

- 표본공간(S) : 랜덤한 현상의 모든 가능한 결과의 집합
- 사건(Event) : 표본공간의 부분집합 ()

ex) Flipping Coin Twice

표본공간 S = {HH, HT, TH,TT}

사건 A : 동전의 앞면만 1번만 나오는 경우 = {HT, TH}

 

2) 확률의 정의

- 고전적 정의 : 가능한 결과가 N가지 이고 각 결과가 나타날 가능성이 모두 같을때, 사건 A에 속하는 결과가 M개라면 A의 확률

- 경험적 정의 (상대도수) : 시행을 여러번 했을 때 A의 결과가 전체 시행에서 얼마나 나오는지에 대한 확률

- 공리적 정의 : 표본공간 S에서의 임의의 사상 A에 대해, 서로 배반인 사상 \(A_1, A_2, ...\)에 대해 단순 덧셈으로 표현 가능하다 했을 때 P(A)를 사상 A의 확률이라고 함

 

3) 조건부 확률

: 한 사건이 일어날 것을 전제로 다른 사건이 일어날 확률

ex) 사건 B가 일어났을 때 사건 A가 일어날 확률

4) 독립과 종속

- 독립사건 : 한 사건의 발생이 다른 발생 확률에 영향을 주지 않는 것


- 종속사건 : 한 사건의 발생이 다른 사건의 발생에 영향을 줌

 

5) 베이즈 정리

: 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리

6) 확률변수

- 확률 변수 : 표본공간에서 정의된 실수값 함수 즉, 일정 확률을 가지고 발생하는 사건에 수치를 부여한 것

   → 사건을 수치화

- 확률 분포 : 확률변수의 값과 확률을 대응시켜 표, 그래프, 함수로 표현한 것

 

7) 이산/연속확률변수

- 이산확률변수 : 이산표본공간에서 정의된 확률변수의 값이 유한 혹은 countably infinite

   → 확률질량함수 사용
- 연속확률변수 : 특정 구간 내의 모든 값을 취하는 확률 변수이며 확률변수의 값이 무한개이며 셀수 없음

   → 확률밀도함수 사용

 

8) 기대값

: 확률변수의 모든 값의 평균

- 이산확률변수

- 연속확률변수

 

9) 분산과 표준편차

- 분산

* 이산확률변수의 분산

* 연속확률변수의 분산

 

- 표준편차

10) 이산확률분포

- 이항분포

    - 베르누이 시행 : 사상이 두개뿐인 시행(성공 or 실패) - 확률변수 X의 평균 : p, 분산 : p(1-p) 
    - 이항확률분포 : 베르누이 시행을 반복하여 특정한 횟수의 성공/실패가 나타날 확률 - 평균 : np, 분산 : np(1-p)

- 포아송분포 : 단위시간, 단위 공간내에 발생하는 사건의 홧수를 확률변수 X라고 할때 X는 λ(단위시간 당 평균 발생횟수)를 모수로 갖는 포아송 분포를 따름 - 평균 : λ , 분산 : λ

 

11) 연속확률분포

- Uniform Distribution : 연속확률분포 중 가장 간단한 분포 - X~U(a, b) / 평균:(a+b)/2, 분산:\((b-a)^2/12\)

- 정규분포(가우스분포) : 연속확률분포 중 가장 널리 사용로 평균을 중심으로 좌우대칭의 종모양 - X~N(μ, \(σ^2\))

- 표준정규분포 : 평균이 0이고 표준편차가 1인 정규분포 (Z분포라고도 불림) - Z=(X - μ)/σ, Z~N(0,1) 

- 표본분포(Sampling distribution) : 모집단에서 일정한 크기로 뽑을 수 있는 표본을 모두 뽑았을때 그 모든 표본의 통계량의 확률분포

- 중심극한정리 : 평균이 m, 표준편차 σ 인 임의의 모집단으로부터 크기 n인 표본에서의 표본평균은 n이 크면 근사적으로 평균이 m이고 분산이 σ^2 / n인 정규분포를 따름

cf) 모집단이 정규분포라면 표본평균의 표본 개수와 상관없이 항상 정규분포를 따름

- 카이제곱(\(χ^2\)) 분포 : 표본분산과 관련된 분포, 확률변수가 각각 표준정규분포를 따르고 독립일 때 그들의 제곱합은 자유도(k)인 카이제곱 분포 \(χ^2_{(k)}\)를 따름

- t분포 : X의 분포가 정규분표일때, 표본평균의 분포에서 모집단의 표준편차를 모를경우 모표준편차 대신 표본표준편차를 사용

cf) 표본크기가 30이상이 되면 정규분포에 근사, 주로 모평균 추정 or 모평균차이에 대한 추정 시 모표준편차를 모를때 사용

- F분포 : 두 정규모집단의 분산을 비교하는 추론에 사용

 

 

5. 통계적 추정

1) 통계적 추정의 종류

- 점추정 : 모수를 단일한 값으로 추측, 신뢰도를 나타낼 수 없음
- 구간추정 : 모수를 포함한다고 추정되는 구간을 구하는 방식, 신뢰도를 나타낼 수 있음

 

2) 기준

- 불편성(Unbiasedness) : 모수의 추정량의 기댓값이 모수가 되는 성질

- 유효성(Efficiency) : 추정량이 불편추정량이고 분산이 다른 추정량에 비해 가장 작은 분산을 갖는 성질

- 일치성 (Consistency) : 표본 크기가 커질 수록 추정량이 모수에 수렴하는 성질
- 충분성 (Sufficiency) : 모수에 대해 가능한 많은 표본정보를 내포하는 성질

 

 

6. 통계검정

1) 가설

- 가설검정 : 설정한 가설이 옳을때 표본에서의 통계량과 통계량의 분포에서 이론적으로 얻는 특정 값을 비교하여 가설의 기각/채택여부를 판정하는 방법 - 확률적 오차범위를 넘어서면 가설을 기각

- 가설 종류

   - 귀무가설(H0) : 대립가설과 상반되는 가설로, 일반적인 사실을 귀무가설로 설정

   - 대립가설(H1) : 입증하고자 하는 가설

- 가설설정의 오류

   - 제 1종 오류(α) : 귀무가설을 채택해야 했음에도 이를 기각 할 오류 
   - 제 2종 오류(β) : 귀무가설을 기각해야 했음에도 이를 채택 할 오류

 

2) 요소

- 유의수준(Significance level) : 제1종 오류를 범할 확률의 최대 허용한계

- 유의확률(p-value) : 검정통계량 값에 대해 귀무가설을 기각 할 수 있는 최소의 유의수준으로 귀무가설이 사실일 확률
    - α > p-value : 귀무가설 기각
    - α < p-value : 귀무가설 채택

- 임계값(critical value) : 기각역과 채택역을 나누는 경계값

    - 기각역 : 귀무가설을 기각하게 되는 검정통계량의 관측값의 영역
    - 채택역 : 귀무가설을 채택하게 되는 검정통계량의 관측값의 영역
    - 검정통계량의 관측값이 기각역에 속하면 귀무가설 기각

 

3) 통계검정 절차

- 검정할 가설을 설정
- 유의수준을 설정
- 임계치를 설정하고 검정 통계량과 임계치를 비교
- p-value 값이 유의수준보다 작으면 귀무가설을 기각

 

4) 양측검정과 단측검정

- 양측검정(Two-sided) : 기각역이 각각 왼쪽과 오른쪽 두 부분으로 구성된 가설검정

- 단측검정(One-sided) : 기각역이 한쪽으로만 구성되는 가설검정

 

5) 모평균 검정

- 정규모집단(정규 분포를 따르는 모집단)의 경우
    - 모분산이 알려진 경우 : Z 검정 통계량
    - 모분산을 모르는 경우 : t 검정 통계량 (자유도 : n-1)
- 표본 크기가 큰 임의의 모집단
    - 모분산이 알려진 경우 : Z 검정 통계량
    - 모분산을 모르는 경우 : Z 검정 통계량

 

Comments