clear_uncertainty

네이버 부스트캠프 모각공 캠페인 8일차 - 베이즈 통계학 맛보기 본문

네이버 부스트캠프 - AI Tech 3rd/핵심만 담은 AI 수학 지식

네이버 부스트캠프 모각공 캠페인 8일차 - 베이즈 통계학 맛보기

SOidentitiy 2021. 11. 17. 20:42
728x90

모든 설명 및 자료의 출처는 네이버 부스트코스의 <[부스트캠프  AI Tech 3기] Pre-Course>입니다.

(https://www.boostcourse.org/onlyboostcampaitech3/joinLectures/329424)

 

<핵심만 담은 AI 수학지식>

베이즈 통계학 맛보기

 

베이즈정리는 데이터가 새로 추가될 때 정보를 업데이트하는 방식에 대해 이론적 설명입니다. 

오늘날 머신러닝에 사용하는 예측 모델의 방법론입니다.

 

조건부확률

 

조건부확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미합니다.

베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려줍니다.

A라는 새로운 정보가 주어졌을때 P(B)로 부터 P(A|B)를 계산하는 방법을 제공합니다.

 

 

용어

 

사후확률(posterior): 데이터가 주어졌을때 hyphosis가 발생할 확률

사전확률(prior): 데이터가 주어지지않은 상황에서 θ에 대한 사전에 계산된 확률 

가능도(likelihood): 현재 주어진 parmeter, 모수, 가정에서 이 데이터가 발견될 확률

Evidence: 데이터 자체의 분포

 

베이즈 정리 : 예제

 

θ를 COVID-19 발병 사건으로 정의(관찰 불가)하고, D를 테스트 결과라고 정의(관찰 가능)합니다.

COVID-19의 발병률이 10%라고 알려져있기때문에 사전확률은 P(θ) = 0.1이다.

바이러스에 실제로 걸렸을 때 검진될 확률이 99%이기 때문에 P(D|θ) = 0.99 이다.

바이러스에 실제로 걸리지않았을 때 검진될 확률이 1%이기 때문에 P(D|ㄱθ) = 0.01이다.

P(D)를 구하는 방법은 위의 식과 같습니다.

이를 표로 설명하면 아래와 같습니다.

 

위의 P(θ|D) = 0.916이 문제에서 묻는 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 실제로 COVID-19에 감염되었을 확률입니다.

만약 오탐률(실제로 걸리지않았을 때 검진될 확률)이 0.01이 아니라 0.1로 오른다면 결과는 어떻게 달라질까?

오탐률(Flase alarm)이 오르면 테스트의 정밀도(Precision)가 떨어집니다.

 

조건부 확률의 시각화(confusion matrix)

 

A confusion matrix is a technique for summarizing the performance of a classification algorithm. 

데이터의 성격에 따라 1종오류를 줄일지, 2종오류를 줄일지에 대한 초점을 어디에 맞쳐야하는지가 달라집니다.

ex) 암에 대한 검진률은, 걸리지않은 사람을 걸렸다고 검진하는 것보다 걸린 사람을 걸리지않았다고 검진하는 것이 더 치명적입니다.

따라서 2종오류를 줄이는데 초점을 맞쳐야합니다.

 

베이즈 정리를 통한 정보의 갱신

 

베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있습니다.

앞서 COVID-19 판정을 받은 사람이 두번째 검진을 받았을 때도 양성이 나왔을 떄 진짜 COVID-19에 걸렸을 확률은?

 

베이즈 정리를 통해 처음의 사후확률을 두번째의 사전확률로 갱신을 해주었을 때, 정밀도는 급격히 오릅니다.

세번의 갱신까지 가면 정밀도는 99%까지 오릅니다. (=베이즈방법론의 장점)

 

조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(causality)를 추론할 때 함부로 사용해서는 안됩니다.

데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는 것은 불가능합니다.

인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요합니다.

인관관계를 알아내기 위해선 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야합니다.

 

인과관계 추론: 예제

 

 


출처

 

[부스트캠프 AI Tech 3기] Pre-Course

728x90