일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 생활코딩
- Sequential Model
- 부스트캠프
- 역전파알고리즘
- 정규표현식
- Convolution
- mutate( )
- LinearNeuralNetwork
- 자바스크립트
- 네이버커넥트
- JavaScript
- group_by( )
- Multi-Layer Perceptron
- 베이즈통계학
- 부스트캠프aitech3기
- NomadCoder
- r
- aitech
- col_names
- Beyond Linear Neural Networks
- RNN
- 네이버커넥트재단
- Filter
- convolution 역전파
- regular expression
- summarise( )
- dplyr
- 모각공
- 부스트캠프 aitech3기
- regex
- Today
- Total
clear_uncertainty
네이버 부스트캠프 모각공 캠페인 8일차 - 베이즈 통계학 맛보기 본문
네이버 부스트캠프 모각공 캠페인 8일차 - 베이즈 통계학 맛보기
SOidentitiy 2021. 11. 17. 20:42
모든 설명 및 자료의 출처는 네이버 부스트코스의 <[부스트캠프 AI Tech 3기] Pre-Course>입니다.
(https://www.boostcourse.org/onlyboostcampaitech3/joinLectures/329424)
<핵심만 담은 AI 수학지식>
베이즈 통계학 맛보기
베이즈정리는 데이터가 새로 추가될 때 정보를 업데이트하는 방식에 대해 이론적 설명입니다.
오늘날 머신러닝에 사용하는 예측 모델의 방법론입니다.
조건부확률
조건부확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미합니다.
베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려줍니다.
A라는 새로운 정보가 주어졌을때 P(B)로 부터 P(A|B)를 계산하는 방법을 제공합니다.
용어
사후확률(posterior): 데이터가 주어졌을때 hyphosis가 발생할 확률
사전확률(prior): 데이터가 주어지지않은 상황에서 θ에 대한 사전에 계산된 확률
가능도(likelihood): 현재 주어진 parmeter, 모수, 가정에서 이 데이터가 발견될 확률
Evidence: 데이터 자체의 분포
베이즈 정리 : 예제
θ를 COVID-19 발병 사건으로 정의(관찰 불가)하고, D를 테스트 결과라고 정의(관찰 가능)합니다.
COVID-19의 발병률이 10%라고 알려져있기때문에 사전확률은 P(θ) = 0.1이다.
바이러스에 실제로 걸렸을 때 검진될 확률이 99%이기 때문에 P(D|θ) = 0.99 이다.
바이러스에 실제로 걸리지않았을 때 검진될 확률이 1%이기 때문에 P(D|ㄱθ) = 0.01이다.
P(D)를 구하는 방법은 위의 식과 같습니다.
이를 표로 설명하면 아래와 같습니다.
위의 P(θ|D) = 0.916이 문제에서 묻는 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 실제로 COVID-19에 감염되었을 확률입니다.
만약 오탐률(실제로 걸리지않았을 때 검진될 확률)이 0.01이 아니라 0.1로 오른다면 결과는 어떻게 달라질까?
오탐률(Flase alarm)이 오르면 테스트의 정밀도(Precision)가 떨어집니다.
조건부 확률의 시각화(confusion matrix)
A confusion matrix is a technique for summarizing the performance of a classification algorithm.
데이터의 성격에 따라 1종오류를 줄일지, 2종오류를 줄일지에 대한 초점을 어디에 맞쳐야하는지가 달라집니다.
ex) 암에 대한 검진률은, 걸리지않은 사람을 걸렸다고 검진하는 것보다 걸린 사람을 걸리지않았다고 검진하는 것이 더 치명적입니다.
따라서 2종오류를 줄이는데 초점을 맞쳐야합니다.
베이즈 정리를 통한 정보의 갱신
베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있습니다.
앞서 COVID-19 판정을 받은 사람이 두번째 검진을 받았을 때도 양성이 나왔을 떄 진짜 COVID-19에 걸렸을 확률은?
베이즈 정리를 통해 처음의 사후확률을 두번째의 사전확률로 갱신을 해주었을 때, 정밀도는 급격히 오릅니다.
세번의 갱신까지 가면 정밀도는 99%까지 오릅니다. (=베이즈방법론의 장점)
조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(causality)를 추론할 때 함부로 사용해서는 안됩니다.
데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는 것은 불가능합니다.
인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요합니다.
인관관계를 알아내기 위해선 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야합니다.
인과관계 추론: 예제
출처
'네이버 부스트캠프 - AI Tech 3rd > 핵심만 담은 AI 수학 지식' 카테고리의 다른 글
네이버 부스트캠프 모각공 캠페인 8일차 - RNN첫걸음 (0) | 2021.11.17 |
---|---|
네이버 부스트캠프 모각공 캠페인 8일차 - CNN 첫걸음 (0) | 2021.11.17 |
네이버 부스트캠프 모각공 캠페인 7일차 - 딥러닝 학습방법 이해하기 (0) | 2021.11.17 |
네이버 부스트캠프 모각공 캠페인 6일차 - 경사하강법 - 순한맛 (0) | 2021.11.14 |
네이버 부스트캠프 모각공 캠페인 2일차 - 행렬이 뭐예요? (0) | 2021.11.09 |