부록 D17: 베이지안 통계

4 분 소요

이 장에서 배울 것

이번 장에서는 베이지안 통계(Bayesian statistics)를 배웁니다. 베이지안 통계는 새로운 데이터를 보기 전의 생각과, 데이터를 본 뒤의 생각을 구분해서 다룹니다. 생물 데이터는 불확실성이 크기 때문에, 베이지안 사고는 “얼마나 확신할 수 있는가”를 표현하는 데 유용합니다.

핵심 용어를 먼저 정리하겠습니다.

사전확률(prior probability): 데이터를 보기 전에 가지고 있던 가능성입니다.
가능도(likelihood): 어떤 가설이 맞다고 할 때, 지금 관찰한 데이터가 얼마나 그럴듯한지 나타내는 값입니다.
사후확률(posterior probability): 데이터를 본 뒤에 갱신된 가능성입니다.
베이즈 정리(Bayes theorem): 사전확률과 가능도를 이용해 사후확률을 계산하는 규칙입니다.
신용구간(credible interval): 베이지안 관점에서 어떤 값이 들어 있을 가능성이 높은 범위입니다.
계층모델(hierarchical model): 여러 그룹이 서로 관련되어 있다고 보고 정보를 나누어 쓰는 모델입니다.

베이지안 갱신의 흐름

가장 쉬운 비유: 탐정이 증거를 보고 생각을 고치는 과정

탐정이 처음에는 용의자 A와 B의 가능성을 각각 반반으로 보고 있었다고 합시다. 그런데 새로운 증거가 나왔습니다. 이 증거가 A가 범인일 때 더 잘 설명된다면, 탐정은 A 쪽 가능성을 더 높게 갱신합니다.

베이지안 통계도 이와 비슷합니다.

처음 생각 + 새 증거 → 갱신된 생각

여기서 처음 생각이 사전확률이고, 새 증거의 그럴듯함이 가능도이며, 갱신된 생각이 사후확률입니다.

사전확률

사전확률은 데이터를 보기 전의 가능성입니다. 예를 들어 어떤 희귀질환의 기본 발생 가능성이 1%라면, 검사 결과를 보기 전에는 사전확률을 0.01로 생각할 수 있습니다.

사전확률은 함부로 정하면 안 됩니다. 기존 연구, 생물학적 지식, 질병 빈도 같은 근거를 바탕으로 정해야 합니다. 다만 입문 단계에서는 “데이터 보기 전의 출발점”이라고 이해하면 됩니다.

가능도

가능도는 어떤 가설이 맞다고 가정했을 때, 관찰된 데이터가 얼마나 그럴듯한지를 나타냅니다. 예를 들어 질병이 있는 사람은 검사 양성이 잘 나오고, 질병이 없는 사람은 검사 양성이 덜 나온다면, 양성 결과는 질병 있음 가설의 가능도를 높입니다.

가능도는 확률과 비슷하게 보이지만, “가설이 주어졌을 때 데이터가 그럴듯한 정도”라고 생각하면 됩니다.

사후확률

사후확률은 데이터를 본 뒤의 갱신된 가능성입니다. 간단한 두 가설 상황에서는 다음처럼 계산할 수 있습니다.

가설 A 점수 = A의 사전확률 × A의 가능도
가설 B 점수 = B의 사전확률 × B의 가능도
A의 사후확률 = A 점수 / (A 점수 + B 점수)

예를 들어 A의 사전확률이 0.5, 가능도가 0.8이고, B의 사전확률이 0.5, 가능도가 0.2라면 다음과 같습니다.

A 점수 = 0.5 × 0.8 = 0.4
B 점수 = 0.5 × 0.2 = 0.1
A 사후확률 = 0.4 / (0.4 + 0.1) = 0.8

데이터를 본 뒤 A의 가능성은 0.8로 올라갑니다.

신용구간

빈도주의 통계에서 신뢰구간을 배웠다면, 베이지안 통계에서는 신용구간을 생각할 수 있습니다. 신용구간은 “이 범위 안에 실제 값이 있을 가능성이 높다”고 직접적으로 해석하는 베이지안 구간입니다. 입문 단계에서는 신뢰구간과 신용구간의 엄밀한 차이를 깊게 들어가기보다, 베이지안은 불확실성을 확률로 직접 표현하려 한다는 점을 기억하면 됩니다.

계층모델

계층모델은 여러 그룹이 완전히 따로따로가 아니라 어느 정도 연결되어 있다고 보는 모델입니다. 예를 들어 여러 병원의 환자 데이터를 분석할 때, 병원마다 차이가 있지만 모두 인간 질병 데이터라는 공통점도 있습니다. 계층모델은 각 그룹의 정보를 따로 보면서도 전체 정보를 함께 활용할 수 있습니다.

계산 감각

이 장에서는 복잡한 베이즈 정리 대신 두 가설의 점수 계산만 확실히 익히면 됩니다.

가설 점수 = 사전확률 × 가능도
사후확률 = 해당 가설 점수 / 모든 가설 점수의 합

예를 들어 A 점수가 0.3, B 점수가 0.7이면 A의 사후확률은 0.3/(0.3+0.7)=0.3입니다. A 점수 0.2, B 점수 0.2라면 A의 사후확률은 0.5입니다.

생물정보학에서 왜 중요한가

변이 해석, 질병 위험 예측, 희귀질환 진단, 작은 표본의 분석에서는 불확실성이 큽니다. 베이지안 통계는 기존 지식과 새 데이터를 함께 고려하는 틀을 제공합니다. 특히 데이터가 적거나 여러 그룹 정보를 함께 쓰고 싶을 때 강력합니다.

보강: 희귀질환 검사에서 베이즈 사고가 필요한 이유

베이지안 통계의 힘은 희귀한 사건을 해석할 때 잘 드러납니다. 어떤 희귀질환의 유병률이 1%이고, 검사가 질병이 있는 사람을 양성으로 잡을 확률이 90%, 질병이 없는 사람에게도 잘못 양성이 나올 확률이 5%라고 합시다. 10,000명을 검사한다고 생각하면 다음처럼 셀 수 있습니다.

질병 있음: 10,000 × 0.01 = 100명
질병 없음: 9,900명

질병 있음 중 양성: 100 × 0.90 = 90명
질병 없음 중 거짓 양성: 9,900 × 0.05 = 495명

양성 전체: 90 + 495 = 585명
양성 중 실제 질병: 90 / 585 ≈ 0.154 = 15.4%

검사가 꽤 좋아 보여도, 질병이 매우 드물면 양성 결과의 상당수가 거짓 양성일 수 있습니다. 이것이 사전확률이 중요한 이유입니다. 생물정보학에서 희귀 변이를 해석할 때도 비슷합니다. 어떤 변이가 질병과 관련 있어 보이더라도, 그 변이가 원래 얼마나 흔한지, 기존 연구에서 어떤 근거가 있었는지를 함께 봐야 합니다.

가능도와 사후확률을 헷갈리지 않기

가능도는 “가설이 맞다고 할 때 데이터가 얼마나 그럴듯한가”입니다. 사후확률은 “데이터를 본 뒤 가설이 얼마나 그럴듯한가”입니다. 둘은 방향이 다릅니다.

가능도: 가설 → 데이터
사후확률: 데이터 → 가설

초보자는 검사 민감도 90%를 보고 “양성이면 질병일 확률이 90%”라고 착각하기 쉽습니다. 하지만 실제 사후확률은 유병률과 거짓 양성률까지 같이 봐야 합니다.

계층모델과 partial pooling 직관

여러 병원의 데이터를 분석한다고 합시다. 병원 A는 환자가 5명뿐이고, 병원 B는 환자가 500명입니다. 병원 A의 평균만 따로 계산하면 우연한 흔들림이 클 수 있습니다. 계층모델은 각 병원의 정보를 보되, 전체 병원의 공통 정보도 함께 사용합니다. 이것을 직관적으로는 “작은 그룹의 극단적인 추정값을 전체 평균 쪽으로 조금 당기는 것”이라고 볼 수 있습니다.

이런 생각은 세포 유형별 발현량 추정, 병원별 치료 효과 추정, 유전자별 효과 추정처럼 작은 그룹이 많이 있는 생물 데이터에서 유용합니다.

보강 학습: Bayesian update

왜 필요한가: 기존 지식과 새 데이터를 결합해 판단을 갱신하기 위해 필요합니다.

공식 읽기: P(H|D)=P(D|H)P(H)/P(D). H는 가설, D는 데이터입니다. P(H)는 사전확률, P(D|H)는 가능도, P(H|D)는 사후확률입니다.

숫자 예시: 사전 odds가 1:9이고 likelihood ratio가 6이면 사후 odds는 6:9=2:3, 사후확률은 2/(2+3)=0.4입니다.

생물정보학에서 쓰이는 장면: 진단검사 해석, variant pathogenicity, marker evidence 통합에서 쓰입니다.

흔한 오해와 주의점: 사전확률을 쓴다고 마음대로 결론을 내리는 것이 아닙니다. 사전정보와 가능도를 투명하게 밝혀야 합니다.

핵심 정리

베이지안 통계는 데이터를 보기 전의 사전확률, 데이터의 그럴듯함인 가능도, 데이터를 본 뒤의 사후확률을 구분합니다. 베이즈 정리는 새 증거를 보고 믿음을 갱신하는 규칙입니다. 입문 단계에서는 가설 점수 = 사전확률 × 가능도와 사후확률 = 해당 점수 / 전체 점수를 이해하면 됩니다. 생물정보학에서는 불확실성이 큰 데이터와 기존 지식을 함께 다룰 때 베이지안 사고가 유용합니다.

Gemini AI 채점

주관식 답안은 Gemini API로 채점합니다. API 키는 이 브라우저에만 저장됩니다.

API KEY 미등록

1. [쉬움] 객관식

사전확률의 설명으로 가장 적절한 것은?

선택지 데이터를 보기 전에 가지고 있던 가능성이다. 데이터를 본 뒤의 가능성이다. 항상 p값과 같은 말이다. 표본평균의 다른 이름이다.
2. [쉬움] 객관식

사후확률의 설명으로 가장 적절한 것은?

선택지 데이터 보기 전 가능성이다. 데이터를 본 뒤 갱신된 가능성이다. 표준편차의 다른 이름이다. 검정 개수이다.
3. [보통] 객관식

가능도의 설명으로 가장 적절한 것은?

선택지 항상 최종 결론이다. 표본수의 제곱근이다. 어떤 가설이 맞다고 할 때 관찰 데이터가 얼마나 그럴듯한지 나타낸다. 유의수준의 다른 이름이다.
4. [계산] 객관식

A 사전확률 0.5, 가능도 0.8이면 A 점수는?

선택지 0.3 0.8 1.3 0.4
5. [계산] 객관식

B 사전확률 0.5, 가능도 0.2이면 B 점수는?

선택지 0.1 0.2 0.5 0.7
6. [계산] 객관식

A 점수 0.4, B 점수 0.1이면 A 사후확률은?

선택지 0.4 0.8 0.5 0.1
7. [계산] 객관식

A 점수 0.3, B 점수 0.7이면 A 사후확률은?

선택지 0.7 1.0 0.3 0.21
8. [계산] 객관식

A 점수 0.2, B 점수 0.2이면 A 사후확률은?

선택지 0.2 0.4 1.0 0.5
9. [계산] 객관식

A 사전확률 0.25, 가능도 0.8이면 A 점수는?

선택지 0.2 0.25 0.8 1.05
10. [계산] 객관식

A 점수 0.2, B 점수 0.3이면 A 사후확률은?

선택지 0.2 0.4 0.3 0.5
11. [계산] 객관식

A 점수 2, B 점수 6이면 A 사후확률은?

선택지 0.5 0.75 0.25 2
12. [계산] 객관식

A 점수 6, B 점수 2이면 A 사후확률은?

선택지 0.25 0.5 3 0.75
13. [쉬움] 객관식

베이지안 갱신의 흐름으로 적절한 것은?

선택지 처음 생각에 새 증거를 반영해 생각을 갱신한다. 모든 사전지식을 버리고 무조건 평균만 구한다. p값만 보고 끝낸다. 표본수를 항상 1로 만든다.
14. [보통] 객관식

신용구간의 설명으로 가장 적절한 것은?

선택지 항상 표본수와 같은 값이다. 베이지안 관점에서 값이 들어 있을 가능성이 높은 범위이다. p값의 다른 이름이다. 검정통계량만 뜻한다.
15. [보통] 객관식

계층모델의 직관으로 적절한 것은?

선택지 모든 그룹을 무조건 하나로 합치는 것이다. 항상 한 사람 데이터만 보는 것이다. 여러 그룹이 완전히 따로가 아니라 정보를 어느 정도 나누어 쓴다고 보는 모델이다. 그래프의 높이만 뜻한다.
16. [계산] 객관식

A 사전확률 0.4, 가능도 0.5이면 A 점수는?

선택지 0.4 0.5 0.9 0.2
17. [계산] 객관식

A 점수 0.6, B 점수 0.4이면 A 사후확률은?

선택지 0.6 0.4 1.0 0.24
18. [계산] 객관식

A 점수 1, B 점수 3이면 A 사후확률은?

선택지 0.5 0.25 0.75 1
19. [보통] 객관식

가능도가 큰 가설은 같은 사전확률이라면 보통 어떻게 되는가?

선택지 항상 사후확률이 0이 된다. 항상 사전확률이 사라진다. 사후확률이 더 커지는 경향이 있다. 표본수가 줄어든다.
20. [보통] 객관식

희귀질환처럼 기본 발생 가능성이 낮은 상황에서 중요한 것은?

선택지 사전확률을 항상 1로 두는 것이다. 가능도를 사용하지 않는 것이다. 모든 검사를 무시하는 것이다. 검사 결과뿐 아니라 사전확률도 함께 고려하는 것이다.
21. [계산] 객관식

A 사전확률 0.1, 가능도 0.5이면 A 점수는?

선택지 0.05 0.1 0.5 0.6
22. [계산] 객관식

A 점수 0.05, B 점수 0.45이면 A 사후확률은?

선택지 0.5 0.1 0.45 0.05
23. [쉬움] 객관식

베이즈 정리의 역할로 적절한 것은?

선택지 모든 p값을 없앤다. 행렬곱만 수행한다. 사전확률과 가능도를 이용해 사후확률을 계산하게 해준다. 확률을 항상 0으로 만든다.
24. [보통] 객관식

베이지안 통계가 생물정보학에서 유용한 이유는?

선택지 모든 데이터를 필요 없게 만들기 때문이다. 통계를 쓰지 않게 해주기 때문이다. 항상 결과를 100% 확정하기 때문이다. 불확실성이 큰 데이터와 기존 지식을 함께 다룰 수 있기 때문이다.
25. [계산] 객관식

가설 A의 사전확률 0.4, 가능도 0.5일 때 A 점수는?

선택지 0.20 0.90 0.10 0.45
26. [계산] 객관식

A 점수 0.2, B 점수 0.3일 때 A의 사후확률은?

선택지 0.2 0.4 0.5 0.6
27. [계산] 객관식

질병 있음 100명 중 검사 양성 90명, 질병 없음 900명 중 거짓 양성 45명이다. 양성 중 실제 질병 비율은?

선택지 90/100 = 90% 45/900 = 5% 90/(90+45) ≈ 66.7% 45/(90+45) ≈ 33.3%
28. [개념 구분] 객관식

가능도의 가장 안전한 설명은?

선택지 데이터를 본 뒤 가설이 참일 확률이다 항상 p값과 같은 값이다 표본평균의 표준오차다 가설이 맞다고 할 때 관찰 데이터가 얼마나 그럴듯한지 나타내는 값이다
29. [계산] 객관식

A의 사전확률 0.7, 가능도 0.2이고 B의 사전확률 0.3, 가능도 0.4이다. A의 사후확률은?

선택지 0.14/(0.14+0.12) ≈ 0.538 0.7/(0.7+0.3)=0.7 0.2/(0.2+0.4)=0.333 0.14
30. [사례 판단] 객관식

희귀질환 검사에서 양성 결과를 해석할 때 특히 중요한 것은?

선택지 그래프 밀도만 보기 질병의 사전확률과 거짓 양성 가능성을 함께 보기 항상 양성이면 질병 확률 100%로 보기 표본평균만 보기
31. [계산] 객관식

A, B, C의 점수가 각각 0.1, 0.3, 0.6일 때 B의 사후확률은?

선택지 0.1 0.6 0.3 0.9
32. [개념 구분] 객관식

신용구간의 입문적 해석으로 가장 적절한 것은?

선택지 반복 표본 중 95%가 참값을 포함한다는 빈도주의 문장만 뜻한다 효과크기가 반드시 크다는 뜻이다 검정을 많이 했다는 뜻이다 베이지안 관점에서 값이 들어 있을 가능성이 높은 범위다
33. [쉬움] 객관식

베이즈 공식에서 P(H)는?

선택지 사전확률 사후확률 거리 분산
34. [보통] 객관식

P(H|D)는?

선택지 가설이 맞을 때 데이터 확률 데이터를 본 뒤 가설 확률 항상 0 샘플 수
35. [보통] 객관식

사전 odds 1:9, LR 6이면 사후 odds는?

선택지 1:54 9:6 6:9 6:1
36. [쉬움] 객관식

사후 odds 2:3을 확률로 바꾸면?

선택지 0.2 0.6 0.8 0.4
37. [어려움] 객관식

드문 질병 검사 양성 해석에서 중요한 것은?

선택지 사전확률과 위양성 영향 양성이면 무조건 100% 특이도 무시 사전확률은 항상 50%
주관식 38. [보통] 주관식 · Gemini 채점

사전확률, 가능도, 사후확률의 관계를 설명하라.
주관식 39. [보통] 주관식 · Gemini 채점

베이지안 갱신을 탐정 비유 없이 설명하라.
주관식 40. [보통] 주관식 · Gemini 채점

계층모델의 직관을 설명하라.
주관식 41. [보통] 주관식 · Gemini 채점

생물정보학에서 베이지안 사고가 유용한 이유를 설명하라.
주관식 42. [심화] 주관식 · Gemini 채점

희귀질환 검사에서 양성 결과가 나와도 사후확률이 낮을 수 있는 이유를 베이지안 관점에서 설명하라.
주관식 43. [보통] 주관식 · Gemini 채점

사전 odds 1:4, likelihood ratio 3일 때 사후 odds와 사후확률을 계산하라.
주관식 44. [보통] 주관식 · Gemini 채점

베이지안 사고가 variant interpretation에서 유용한 이유를 설명하라.