코딩하는 해맑은 거북이

[확률및통계] 베이즈 통계학 본문

Mathematics | Statistics

[확률및통계] 베이즈 통계학

#CJE 2022. 12. 31.
본 게시물의 내용은 '베이즈 통계학 맛보기(부스트캠프 AI Tech)' 강의를 듣고 작성하였다.

 

조건부 확률이란?

조건부확률  P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미한다.

베이즈정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려준다.

A 라는 새로운 정보가 주어졌을 때 P(B)로부터 P(B|A)를 계산하는 방법을 제공한다.

 

베이즈 정리 : 예제

COVID-99의 발병률이 10%로 알려져있다.

COVID-99에 실제로 걸렸을 때 검진될 확률은  99%,

실제로 걸리지 않았을 때 오검진될 확률이 1%라고 할 때,

어떤사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은?

※ θ를 COVID-99 발병사건으로 정의(관찰불가)하고, D를 테스트결과라고 정의(관찰가능)한다.

<풀이>
COVID-99의 발병률이 10%로 알려져있다.
사전확률
COVID-99에 실제로 걸렸을 때 검진될 확률은 99%,
실제로 걸리지 않았을 때 오검진될 확률이 1%라고 할 때,
가능도
Evidence

 

* 만일 P(D|¬θ)를 모른다면 이 문제는 풀기 어렵다!
어떤사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은?
사후확률

 

조건부확률의 시각화




* 추가적으로 만약 오검진될 확률 1%가 10%로 오르게 된다면?
>> 결론 : 오검진될 확률이 오르면 사후확률이 떨어지는 것을 볼 수 있음.

조건부확률의 시각화

 

 

베이즈 정리를 통한 정보의 갱신

베이즈정리를 통해 새로운 데이터가 들어왔을 때,

앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다.

 

* 앞서 COVID-99 판정을 받은 사람이 두번째 검진을 받았을 때도 양성이 나왔을 때 진짜 COVID-99에 걸렸을 확률은?

※ 세번째 검사해도 양성이 나오면 정밀도가 99.1%까지 갱신된다

 

 

조건부 확률 → 인과관계?

조건부확률은 유용한 통계적 해석을 제공하지만 인과관계(causality)를 추론할때 함부로 사용해서는 안된다.

데이터가 많아져도 조건부확률만 가지고 인과관계를 추론하는 것은 불가능하다.

 

조건부확률로만으로 만든 예측모형은 새로운 시나리오를 도입했을 때, 유입되는 데이터 분포가 변하는 경우가 굉장히 많다.

그래서 인과관계는 데이터분포의 변화에 강건한 예측모형을 만들 때 필요하다.

단, 인과관계만으로는 높은 예측 정확도를 담보하기는 어렵다.

인과관계를 알아내기 위해서는 중첩요인(confoundingfactor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다.

Z(중첩요인) : T(원인), R(결과) 둘다에 영향을 주는 것

Z의 효과를 제거하지 않으면 가짜 연관성(spurious correlation)이 나온다.

이러한 가짜 연관성은 예측정확도를 떨어뜨리는 가장 큰 요인!

 

 

인과관계 추론 : 예제

신장 결석의 크기에 따른 치료법 a, b가 있다.

두 가지 치료법 중 어떤 치료법이 신장 결석이 발생했을 때 완치률이 더 높을지?

치료법 a : 개복수술 / 치료법 b : 시술치료

전체적인 완치률을 보면 치료법 b가 더 높지만, 결석 크기에 따른 각각의 완치률을 보면 치료법 a가 더 높다.

>> 심슨의 역설 (Simpson's paradox)

 

조정(internention) 효과를 통해 중첩 효과(Z)를 제거해야 정확한 결과를 얻을 수 있다.

>> 모든 환자가 신장 결석 크기에 상관없이 각각의 치료법 a, b를 선택했을 때 완치률을 계산하는 방법이 있다.

중첩효과제거 : 치료법 a 선택 시 78% → 83.25%
중첩효과제거 : 치료법 b 선택 시 83% → 77.89%

 

인과관계를 고려해서 중첩효과를 제거한 데이터 분석을 했을때 좀 더 안정적인 예측 모형 설계 가능하다.

단순히 조건부확률로 데이터 분석을 하는 것은 상당히 위험하고

데이터에서 실제로 추론할 수 있는 사실관계들, 데이터가 생성되는 관계 또는 도메인 지식을 활용해서

변수간의 관계를 파악해야 인과관계 추론이 가능하기 때문에

데이터 분석을 할때 강건한 데이터 모형을 만들 때 인과관계도 고려하는 것이 중요하다!

 

Comments