부록 D12: 주요 확률분포

5 분 소요

이 장에서 배울 것

이번 장에서는 계산생물학에서 자주 만나는 주요 확률분포를 배웁니다. 확률분포는 데이터가 생기는 상황에 따라 고르는 기본 모양입니다. 모든 분포를 깊게 계산하려는 장은 아닙니다. “어떤 상황에서 어떤 분포가 자연스러운가”를 이해하는 것이 목표입니다.

핵심 용어를 먼저 정리하겠습니다.

베르누이 분포(Bernoulli distribution): 결과가 성공/실패처럼 두 가지뿐인 한 번의 시행을 다룹니다.
이항분포(Binomial distribution): 같은 베르누이 시행을 여러 번 반복했을 때 성공 횟수를 다룹니다.
포아송 분포(Poisson distribution): 일정한 구간 안에서 사건이 몇 번 일어나는지 다룹니다.
정규분포(Normal distribution): 평균 주변에 종 모양으로 퍼지는 연속형 분포입니다.
지수분포(Exponential distribution): 어떤 사건이 일어날 때까지 기다리는 시간을 다룹니다.
감마분포(Gamma distribution): 여러 단계의 대기시간이 합쳐진 상황을 다룰 수 있습니다.
음이항 분포(Negative binomial distribution): 포아송보다 더 많이 흔들리는 count data를 다룰 때 자주 사용됩니다.

주요 확률분포의 큰 지도

가장 쉬운 비유: 상황에 맞는 자 고르기

길이를 재려면 줄자를 쓰고, 몸무게를 재려면 저울을 씁니다. 모든 것을 같은 도구로 재면 안 됩니다. 확률분포도 마찬가지입니다. 데이터가 어떤 상황에서 생겼는지에 따라 어울리는 분포가 다릅니다.

한 번 성공/실패만 보면 베르누이 분포가 자연스럽습니다. 성공 횟수를 세면 이항분포가 자연스럽습니다. 일정 시간 동안 사건이 몇 번 일어났는지 세면 포아송 분포가 자연스럽습니다. 키처럼 평균 주변에 자연스럽게 퍼지는 연속값은 정규분포로 근사할 수 있습니다.

베르누이 분포: 예/아니오 한 번

베르누이 분포는 결과가 두 가지뿐인 한 번의 시행입니다.

성공 = 1
실패 = 0

예를 들어 어떤 변이가 있는지 없는지를 본다고 합시다.

변이 있음 = 1
변이 없음 = 0

성공확률을 p라고 하면, 실패확률은 1-p입니다. 예를 들어 p=0.3이면 성공확률은 0.3, 실패확률은 0.7입니다.

베르누이 분포의 기댓값은 p입니다. 성공을 1, 실패를 0으로 두면 평균적으로 성공확률만큼의 값이 나오기 때문입니다.

이항분포: 여러 번 중 성공 횟수

이항분포는 같은 베르누이 시행을 여러 번 반복했을 때 성공 횟수를 다룹니다. 예를 들어 성공확률이 0.5인 시행을 10번 반복하면 성공 횟수는 0개부터 10개까지 나올 수 있습니다.

이항분포의 평균은 다음과 같습니다.

평균 = n × p

여기서 n은 시행 횟수, p는 한 번 성공할 확률입니다. 예를 들어 n=10, p=0.5이면 평균 성공 횟수는 다음과 같습니다.

10 × 0.5 = 5

생물학에서는 특정 조건에서 성공/실패, 있음/없음, 반응/무반응을 여러 번 관찰할 때 이항분포 감각이 필요합니다.

포아송 분포: 일정 구간 안의 사건 횟수

포아송 분포는 일정한 시간, 공간, 길이 안에서 사건이 몇 번 일어나는지 볼 때 사용합니다. 예를 들어 특정 DNA 구간에서 변이가 몇 개 나타나는지, 일정 시간 동안 세포 분열 사건이 몇 번 일어나는지 같은 상황을 떠올릴 수 있습니다.

포아송 분포에서는 평균 사건 수를 보통 λ(람다)라고 씁니다. λ=3이면 평균적으로 사건이 3번 일어난다는 뜻입니다. 포아송 분포에서는 평균과 분산이 λ로 같습니다. 입문 단계에서는 “평균 사건 수가 λ”라는 점을 먼저 기억하면 됩니다.

정규분포: 평균 주변의 종 모양

정규분포는 평균 주변에 값이 많이 모이고, 평균에서 멀어질수록 적어지는 종 모양 분포입니다. 키, 측정 오차, 여러 작은 요인이 합쳐진 값에서 자주 등장합니다.

정규분포는 평균과 표준편차로 모양이 정해집니다. 평균은 중심이고, 표준편차는 퍼짐입니다. 표준편차가 크면 넓게 퍼지고, 작으면 좁게 모입니다.

정규분포에는 유명한 경험 법칙이 있습니다. 대략 평균에서 표준편차 1개 범위 안에 약 68%가 들어갑니다. 입문 단계에서는 이 정도만 알아도 분포 그림을 읽는 데 도움이 됩니다.

지수분포와 감마분포: 기다리는 시간

지수분포는 어떤 사건이 일어날 때까지 기다리는 시간을 다룹니다. 예를 들어 어떤 분자가 특정 반응을 일으킬 때까지 걸리는 시간, 어떤 사건이 다음에 발생할 때까지의 시간을 단순화해 볼 수 있습니다.

감마분포는 여러 대기시간이 합쳐진 상황을 다룰 수 있습니다. 예를 들어 한 사건이 여러 단계를 거쳐 일어난다면, 각 단계의 시간이 합쳐져 전체 시간이 됩니다.

이 둘은 입문 단계에서 공식을 깊게 다룰 필요는 없습니다. “시간을 세는 분포”라는 감각을 잡으면 됩니다.

음이항 분포: RNA-seq에서 자주 등장하는 이유

RNA-seq 읽힘 수는 count data입니다. 처음에는 포아송 분포로 생각할 수 있습니다. 하지만 실제 생물 데이터는 포아송보다 더 많이 흔들리는 경우가 많습니다. 샘플 차이, 생물학적 차이, 기술적 잡음이 섞이기 때문입니다.

이렇게 평균에 비해 분산이 더 큰 현상을 과분산(overdispersion, 데이터가 단순 포아송 가정보다 더 넓게 퍼지는 현상)이라고 합니다. 음이항 분포는 이런 과분산을 다루는 데 유용합니다. RNA-seq 차등 발현 분석 도구들이 음이항 분포를 사용하는 이유가 여기에 있습니다.

계산 감각 1: 베르누이 분포

성공확률 p가 0.2이면 실패확률은 다음과 같습니다.

1 - 0.2 = 0.8

계산 감각 2: 이항분포 평균

10번 시행하고 성공확률이 0.3이면 평균 성공 횟수는 다음과 같습니다.

n × p = 10 × 0.3 = 3

계산 감각 3: 포아송 분포의 평균

포아송 분포에서 λ=4라면 평균 사건 수는 4입니다. 입문 단계에서는 λ를 평균 사건 수라고 읽으면 됩니다.

계산 감각 4: 정규분포의 68% 규칙

평균이 100이고 표준편차가 10인 정규분포에서 대략 68%의 값은 다음 범위에 있습니다.

100 - 10 = 90
100 + 10 = 110

즉 대략 90에서 110 사이입니다.

생물정보학에서 왜 중요한가

확률분포를 모르면 통계 모델이 왜 그렇게 생겼는지 이해하기 어렵습니다. RNA-seq의 읽힘 수는 count data이므로 정규분포만으로 처리하기 어렵습니다. 변이 개수나 사건 횟수는 포아송 계열로 생각할 수 있습니다. 성공/실패 자료는 베르누이 또는 이항분포로 생각할 수 있습니다. 연속형 측정값은 정규분포로 근사할 수 있습니다.

중요한 것은 분포 이름을 외우는 것이 아니라, 데이터가 생기는 상황과 분포를 연결하는 것입니다.

보강: 분포는 데이터가 생긴 상황에 맞춰 고릅니다

분포를 외울 때는 이름보다 상황을 먼저 봐야 합니다. 한 번의 성공/실패는 베르누이, 여러 번 반복했을 때 성공 횟수는 이항분포, 일정 구간 안의 사건 횟수는 포아송 분포로 생각할 수 있습니다. 예를 들어 20개 세포 중 특정 표지가 양성인 세포 수는 이항분포 관점으로 볼 수 있습니다.

포아송 분포에서는 평균과 분산이 같다는 단순한 가정이 들어갑니다. 하지만 RNA-seq read count는 유전자마다, 샘플마다 흔들림이 더 큰 경우가 많습니다. 이처럼 분산이 평균보다 큰 상황을 과분산이라고 하고, 이때 음이항 분포가 더 자연스럽게 쓰입니다.

정규분포는 유용하지만 모든 데이터에 자동으로 맞는 만능 도구가 아닙니다. count data처럼 0 이상의 정수만 나오는 자료나 한쪽으로 치우친 자료에는 다른 분포가 더 적절할 수 있습니다. 좋은 분석은 “내 데이터가 어떤 과정에서 생겼는가”를 먼저 묻는 것에서 시작합니다.

보강 학습: 확률분포와 negative binomial count model 예고

왜 필요한가: 값이 어떤 모양으로 나오는지 이해하고 count data에 맞는 모델을 고르기 위해 필요합니다.

공식 읽기: count data에서 과산포: Var(X) > E[X]. E[X]는 평균, Var(X)는 분산입니다. 분산이 평균보다 훨씬 크면 포아송보다 더 흔들리는 count입니다.

숫자 예시: RNA-seq count 평균이 30인데 분산이 150이면 과산포를 의심합니다.

생물정보학에서 쓰이는 장면: RNA-seq 차등발현 분석에서 negative binomial 모델이 자주 등장하는 이유가 여기에 있습니다.

흔한 오해와 주의점: count data를 무조건 정규분포처럼 다루면 0이 많고 비대칭인 구조를 놓칠 수 있습니다.

핵심 정리

베르누이 분포는 성공/실패 한 번을 다루고, 이항분포는 여러 번 반복했을 때 성공 횟수를 다룹니다. 포아송 분포는 일정 구간 안의 사건 횟수를 다루며, 정규분포는 평균 주변에 종 모양으로 퍼지는 연속값을 다룹니다. 지수분포와 감마분포는 기다리는 시간과 관련되고, 음이항 분포는 포아송보다 더 많이 흔들리는 count data에 유용합니다. 생물정보학에서는 데이터가 어떤 방식으로 생겼는지를 보고 적절한 분포를 선택해야 합니다.

Gemini AI 채점

주관식 답안은 Gemini API로 채점합니다. API 키는 이 브라우저에만 저장됩니다.

API KEY 미등록

1. [쉬움] 객관식

베르누이 분포가 다루는 상황은?

선택지 성공/실패처럼 두 결과뿐인 한 번의 시행 연속적인 키의 전체 분포만 행렬곱만 편집 거리만
2. [쉬움] 객관식

이항분포가 다루는 상황은?

선택지 항상 시간 하나만 여러 번 반복했을 때 성공 횟수 DNA 문자열의 글자 순서만 행렬의 전치만
3. [보통] 객관식

포아송 분포의 직관은?

선택지 항상 성공/실패 한 번만 다룬다. 평균 주변의 종 모양만 다룬다. 일정 구간 안에서 사건이 몇 번 일어나는지 다룬다. 행렬의 열 수만 다룬다.
4. [쉬움] 객관식

정규분포의 기본 모양은?

선택지 항상 두 값만 가진다. 항상 문자열이다. 항상 0만 나온다. 평균 주변에 종 모양으로 퍼진다.
5. [계산] 객관식

베르누이 성공확률 p=0.2일 때 실패확률은?

선택지 0.8 0.2 1.2 0.02
6. [계산] 객관식

베르누이 성공확률 p=0.7일 때 실패확률은?

선택지 0.7 0.3 1.7 0.07
7. [계산] 객관식

이항분포에서 n=10, p=0.5일 때 평균 성공 횟수는?

선택지 10 0.5 5 2
8. [계산] 객관식

이항분포에서 n=10, p=0.3일 때 평균 성공 횟수는?

선택지 7 0.3 10 3
9. [계산] 객관식

이항분포에서 n=20, p=0.25일 때 평균 성공 횟수는?

선택지 5 4 10 15
10. [계산] 객관식

포아송 분포에서 λ=4이면 평균 사건 수는?

선택지 2 4 8 0.4
11. [계산] 객관식

포아송 분포에서 λ=2이면 평균 사건 수는?

선택지 4 1 2 0.2
12. [계산] 객관식

평균 100, 표준편차 10인 정규분포의 대략 68% 범위는?

선택지 80~120 100~110 0~10 90~110
13. [계산] 객관식

평균 50, 표준편차 5인 정규분포의 대략 68% 범위는?

선택지 45~55 40~60 50~55 0~5
14. [보통] 객관식

지수분포가 주로 다루는 직관은?

선택지 성공/실패 이름만 사건이 일어날 때까지 기다리는 시간 행렬의 전치 유전자 문자열 길이만
15. [보통] 객관식

감마분포의 직관으로 적절한 것은?

선택지 항상 성공/실패 한 번만 다룬다. 항상 DNA를 RNA로 바꾼다. 여러 대기시간이 합쳐진 상황을 다룰 수 있다. 항상 거리만 잰다.
16. [보통] 객관식

음이항 분포가 RNA-seq에서 유용한 이유는?

선택지 항상 연속형 키만 다루기 때문이다. 확률을 없애기 때문이다. 모든 유전자를 하나로 합치기 때문이다. 포아송보다 더 많이 흔들리는 count data를 다룰 수 있기 때문이다.
17. [보통] 객관식

과분산의 뜻으로 가장 적절한 것은?

선택지 단순 포아송 가정보다 데이터가 더 넓게 퍼지는 현상 값이 하나도 변하지 않는 현상 평균이 반드시 0인 현상 확률 합이 2가 되는 현상
18. [보통] 객관식

성공/실패 한 번을 1과 0으로 표현할 때 성공확률 p의 기댓값은?

선택지 1-p p n×p λ²
19. [계산] 객관식

n=8, p=0.5인 이항분포의 평균은?

선택지 8 2 4 0.5
20. [계산] 객관식

n=12, p=0.25인 이항분포의 평균은?

선택지 6 12 0.25 3
21. [계산] 객관식

평균 0, 표준편차 1인 정규분포의 대략 68% 범위는?

선택지 -1~1 0~1 -2~2 1~2
22. [보통] 객관식

변이 있음/없음처럼 두 상태만 보는 자료에 가장 가까운 분포는?

선택지 감마분포 베르누이 분포 정규분포만 SVD
23. [보통] 객관식

10번 중 성공 횟수를 보는 자료에 가장 가까운 분포는?

선택지 베르누이 한 번만 정규분포만 이항분포 전치행렬
24. [보통] 객관식

일정 구간의 사건 횟수를 볼 때 가장 먼저 떠올릴 수 있는 분포는?

선택지 베르누이 한 번만 정규분포만 코사인 유사도 포아송 분포
25. [쉬움] 객관식

한 세포가 특정 표지를 가졌는지 여부처럼 예/아니오 한 번의 시행에 가장 어울리는 분포는?

선택지 베르누이 분포 정규분포 감마분포 PCA
26. [보통] 객관식

20개 세포 중 표지 양성 세포 수를 세는 상황에 가장 가까운 분포는?

선택지 지수분포 이항분포 정규분포만 편집 거리
27. [보통] 객관식

이항분포에서 시행 횟수 n=10, 성공확률 p=0.3일 때 평균 성공 횟수는?

선택지 0.3 10 3 13
28. [쉬움] 객관식

포아송 분포에서 평균 사건 수 λ가 4이면 분포의 평균은?

선택지 2 8 16 4
29. [보통] 객관식

RNA-seq count data에서 분산이 평균보다 훨씬 큰 상황을 부르는 말은?

선택지 과분산 전치 고유벡터 여사건
30. [보통] 객관식

과분산이 강한 RNA-seq count data에 포아송보다 자주 쓰이는 분포는?

선택지 베르누이 분포 음이항 분포 정규분포만 균등분포만
31. [보통] 객관식

정규분포의 68% 규칙에서 평균 ± 1 표준편차 범위에 대략 들어가는 비율은?

선택지 5% 50% 68% 95%
32. [보통] 객관식

사건이 일어날 때까지의 대기시간을 다룰 때 가장 가까운 분포는?

선택지 베르누이 분포 이항분포 포아송 평균 지수분포
33. [쉬움] 객관식

count data의 예는?

선택지 연구자 이름 그래프 색상 논문 제목 유전자에 매핑된 read 수
34. [보통] 객관식

포아송분포의 기본 감각은?

선택지 일정 단위 안 사건 횟수를 센다. 모든 값이 문자다. 값이 반드시 음수다. 분산이 항상 0이다.
35. [보통] 객관식

negative binomial이 RNA-seq에서 등장하는 쉬운 이유는?

선택지 read를 DNA로 바꾸기 위해서 분산이 평균보다 큰 과산포를 다루기 위해서 p-value를 없애기 위해서 표본수를 1로 만들기 위해서
36. [어려움] 객관식

count data 해석에서 맞는 주의점은?

선택지 항상 완벽한 정규분포다. 음수 read가 자주 나온다. 0 이상 정수이고 낮은 count에서는 0이 많을 수 있다. 분포는 모델과 무관하다.
37. [보통] 객관식

평균 20, 분산 200이면?

선택지 모든 샘플이 동일하다. 분산이 평균보다 작다. count가 문자열이다. 과산포를 의심할 수 있다.
주관식 38. [보통] 주관식 · Gemini 채점

베르누이 분포와 이항분포의 차이를 설명하라.
주관식 39. [보통] 주관식 · Gemini 채점

포아송 분포가 어떤 상황에 어울리는지 설명하라.
주관식 40. [보통] 주관식 · Gemini 채점

정규분포에서 평균과 표준편차의 역할을 설명하라.
주관식 41. [보통] 주관식 · Gemini 채점

RNA-seq에서 음이항 분포가 자주 쓰이는 이유를 설명하라.
주관식 42. [보통] 주관식 · Gemini 채점

베르누이, 이항, 포아송 분포를 상황 중심으로 구분하라.
주관식 43. [보통] 주관식 · Gemini 채점

RNA-seq count data에서 과분산이 있을 때 음이항 분포가 유용한 이유를 설명하라.
주관식 44. [보통] 주관식 · Gemini 채점

RNA-seq count 평균이 30, 분산이 150이다. negative binomial을 고려할 수 있는 이유를 설명하라.
주관식 45. [보통] 주관식 · Gemini 채점

read count를 정규분포 자료처럼 바로 해석하면 생길 수 있는 문제를 설명하라.