부록 D11: 확률변수와 분포
이 장에서 배울 것
이번 장에서는 확률변수(random variable)와 분포(distribution)를 배웁니다. 확률변수는 불확실한 결과를 숫자로 바꾼 것입니다. 분포는 그 숫자들이 어떤 확률로 나타나는지 보여주는 지도입니다.
핵심 용어를 먼저 정리하겠습니다.
- 확률변수(random variable): 우연한 결과를 숫자로 나타낸 것입니다.
- 이산형(discrete): 셀 수 있는 값만 가지는 경우입니다. 예를 들어 읽힘 수, 변이 개수, 성공 횟수입니다.
- 연속형(continuous): 키, 농도, 시간처럼 연속적인 값을 가질 수 있는 경우입니다.
- 분포(distribution): 어떤 값이 얼마나 자주 또는 어떤 확률로 나오는지 나타낸 것입니다.
- 기댓값(expected value): 확률적으로 예상되는 평균적인 값입니다.
- 분산(variance): 값들이 기댓값 주변에서 얼마나 퍼지는지 나타내는 값입니다.
- 표준편차(standard deviation): 분산의 제곱근입니다. 원래 단위와 비슷하게 해석하기 쉽습니다.
가장 쉬운 비유: 동전 앞면 개수를 숫자로 세기
동전을 두 번 던진다고 합시다. 가능한 결과는 다음과 같습니다.
앞앞, 앞뒤, 뒤앞, 뒤뒤
여기서 “앞면이 나온 개수”를 숫자로 세면 다음과 같습니다.
앞앞 → 2
앞뒤 → 1
뒤앞 → 1
뒤뒤 → 0
이때 “앞면 개수”가 확률변수입니다. 실제 결과는 우연히 정해지지만, 우리는 그 결과를 0, 1, 2라는 숫자로 바꿔 다룹니다.
분포는 확률의 지도입니다
동전 두 번 던지기에서 앞면 개수의 분포를 쓰면 다음과 같습니다.
앞면 0개: 1/4
앞면 1개: 2/4
앞면 2개: 1/4
이 표가 분포입니다. 어떤 값이 얼마나 나올 가능성이 있는지 보여줍니다.
생물정보학에서는 분포를 이해하는 일이 매우 중요합니다. 어떤 유전자의 읽힘 수가 보통 어느 정도인지, 변이가 몇 개 정도 나올지, 세포별 발현량이 어떻게 퍼져 있는지 모두 분포의 문제입니다.
이산형과 연속형
이산형 값은 하나, 둘, 셋처럼 셀 수 있습니다. RNA-seq의 읽힘 수는 0개, 1개, 2개처럼 셀 수 있으므로 이산형입니다. 변이 개수, 세포 수, 성공 횟수도 이산형입니다.
연속형 값은 끊어지지 않고 이어지는 값입니다. 키, 몸무게, 시간, 농도, 온도 같은 값이 대표적입니다. 실제 측정 장비는 소수점 몇 자리까지만 기록하지만, 개념적으로는 연속적인 양으로 볼 수 있습니다.
데이터가 이산형인지 연속형인지에 따라 적절한 확률분포와 통계 방법이 달라집니다.
기댓값: 확률적 평균
기댓값은 “오래 반복했을 때 평균적으로 기대되는 값”입니다. 값마다 그 값이 나올 확률을 곱한 뒤 모두 더합니다.
예를 들어 어떤 확률변수 X가 다음처럼 분포한다고 합시다.
X=0일 확률: 0.5
X=2일 확률: 0.5
기댓값은 다음과 같습니다.
0×0.5 + 2×0.5 = 1
즉 평균적으로는 1을 기대할 수 있습니다. 실제 한 번의 결과가 반드시 1이라는 뜻은 아닙니다. 실제 결과는 0 또는 2입니다. 기댓값은 긴 반복에서의 중심을 말합니다.
분산: 얼마나 흔들리는가
기댓값이 같아도 분포의 퍼짐은 다를 수 있습니다. 예를 들어 두 실험의 평균 읽힘 수가 모두 10이라고 해도, 하나는 대부분 9~11 사이에 있고 다른 하나는 0~20 사이에 넓게 퍼질 수 있습니다.
분산은 값들이 기댓값에서 얼마나 떨어져 있는지 평균적으로 보는 값입니다. 처음에는 정확한 공식보다 “흔들림의 크기”라고 이해하면 됩니다.
표준편차는 분산의 제곱근입니다. 분산보다 원래 데이터 단위와 해석이 비슷해서 자주 사용됩니다.
분포를 보면 평균만 볼 때보다 더 많이 안다
두 유전자의 평균 발현량이 같다고 해도 분포가 다를 수 있습니다. 한 유전자는 모든 세포에서 비슷하게 발현될 수 있고, 다른 유전자는 일부 세포에서만 매우 강하게 발현될 수 있습니다.
평균만 보면 둘을 구분하기 어렵습니다. 분포를 보면 훨씬 더 많은 정보를 얻습니다. 단일세포 분석에서 분포와 퍼짐이 중요한 이유도 여기에 있습니다.
계산 감각 1: 기댓값
X=1일 확률 0.5
X=3일 확률 0.5
기댓값은 다음과 같습니다.
1×0.5 + 3×0.5 = 2
계산 감각 2: 확률의 합
분포에서 모든 확률을 더하면 1이어야 합니다.
0.2 + 0.3 + 0.5 = 1.0
만약 확률의 합이 1이 아니라면, 분포 표에 빠진 경우가 있거나 잘못 쓴 것입니다.
계산 감각 3: 이산형 값의 평균
값이 0, 1, 2이고 확률이 각각 0.25, 0.5, 0.25라면 기댓값은 다음과 같습니다.
0×0.25 + 1×0.5 + 2×0.25 = 1
생물정보학에서 왜 중요한가
RNA-seq의 읽힘 수, 변이 개수, 세포별 발현량, 환자별 위험 점수는 모두 확률변수처럼 생각할 수 있습니다. 데이터가 어떤 분포를 따르는지 이해하면 왜 특정 통계 방법을 쓰는지 알 수 있습니다.
예를 들어 읽힘 수는 셀 수 있는 개수이므로 일반적인 연속형 값과 다르게 다루어야 합니다. RNA-seq에서 음이항 분포가 자주 등장하는 이유도 읽힘 수의 분포와 과도한 퍼짐을 다루기 위해서입니다.
보강: 기댓값과 분산을 직접 계산해 보기
확률변수는 우연한 결과를 숫자로 바꾼 것입니다. 예를 들어 어떤 유전자의 변이 개수 X가 0개일 확률 0.5, 1개일 확률 0.3, 2개일 확률 0.2라면 기댓값은 0×0.5 + 1×0.3 + 2×0.2 = 0.7입니다. 이는 반복해서 관찰했을 때 평균적으로 0.7개 정도를 기대한다는 뜻입니다.
분산은 값이 평균 주변에서 얼마나 흔들리는지 봅니다. 두 유전자의 평균 발현량이 모두 10이어도, 하나는 대부분 9~11 사이이고 다른 하나는 0~20 사이로 크게 흔들릴 수 있습니다. 평균만 보면 둘이 같아 보이지만 분포를 보면 완전히 다른 데이터입니다.
생물정보학에서 이산형과 연속형 구분도 중요합니다. read count, 변이 개수, 세포 수는 셀 수 있는 이산형 데이터입니다. 농도, 시간, 변환된 발현량, 세포 크기는 연속형 데이터로 다루는 경우가 많습니다. 데이터 종류에 따라 적절한 분포와 모델이 달라집니다.
보강 학습: 기대값, 분산, z-score
왜 필요한가: 평균적 중심, 퍼짐, 상대적 위치를 같은 언어로 읽기 위해 필요합니다.
공식 읽기: E[X]=ΣxP(x), Var(X)=E[(X-μ)²], z=(x-μ)/σ. x는 가능한 값, P(x)는 그 확률, μ는 평균, σ는 표준편차입니다.
숫자 예시: 평균 10, 표준편차 2, 관찰값 14이면 z=(14-10)/2=2입니다.
생물정보학에서 쓰이는 장면: 품질 지표, pathway score, 유전자 발현량의 상대적 위치를 비교할 때 쓰입니다.
흔한 오해와 주의점: z-score가 높다고 바로 생물학적으로 중요하다는 뜻은 아닙니다. 분포 모양과 outlier를 확인해야 합니다.
핵심 정리
확률변수는 우연한 결과를 숫자로 바꾼 것입니다. 분포는 그 숫자들이 어떤 확률로 나타나는지 보여주는 지도입니다. 이산형 값은 개수처럼 셀 수 있고, 연속형 값은 농도나 시간처럼 이어지는 값을 가집니다. 기댓값은 확률적 평균이고, 분산은 값들이 얼마나 퍼져 있는지 나타냅니다. 생물 데이터는 평균뿐 아니라 분포를 함께 봐야 제대로 이해할 수 있습니다.
문제 풀이
확률변수와 분포
주관식 답안은 Gemini API로 채점합니다. API 키는 이 브라우저에만 저장됩니다.
-
1. [쉬움] 객관식
확률변수의 뜻으로 맞는 것은?
-
2. [쉬움] 객관식
분포의 뜻으로 맞는 것은?
-
3. [쉬움] 객관식
이산형 값의 예로 적절한 것은?
-
4. [쉬움] 객관식
연속형 값의 예로 적절한 것은?
-
5. [계산] 객관식
확률 0.2, 0.3, 0.5의 합은?
-
6. [계산] 객관식
X=0 확률 0.5, X=2 확률 0.5일 때 기댓값은?
-
7. [계산] 객관식
X=1 확률 0.5, X=3 확률 0.5일 때 기댓값은?
-
8. [계산] 객관식
X=0,1,2의 확률이 0.25,0.5,0.25이면 기댓값은?
-
9. [보통] 객관식
분산의 직관으로 가장 적절한 것은?
-
10. [보통] 객관식
표준편차의 설명으로 적절한 것은?
-
11. [계산] 객관식
동전 두 번에서 앞면 개수의 가능한 값은?
-
12. [계산] 객관식
동전 두 번에서 앞면 1개가 나올 확률은?
-
13. [보통] 객관식
평균이 같아도 분포를 봐야 하는 이유는?
-
14. [보통] 객관식
RNA-seq 읽힘 수는 보통 어떤 자료형에 가까운가?
-
15. [계산] 객관식
확률 0.1,0.2,0.3의 합은?
-
16. [계산] 객관식
확률이 0.4와 0.6인 두 값 2와 7의 기댓값은?
-
17. [계산] 객관식
X=10 확률 1일 때 기댓값은?
-
18. [쉬움] 객관식
분포에서 모든 가능한 값의 확률 합은 얼마여야 하는가?
-
19. [보통] 객관식
기댓값이 실제 한 번의 결과와 반드시 같지 않은 이유는?
-
20. [보통] 객관식
세포별 발현량에서 일부 세포만 매우 높은 경우 평균만 보면 어떤 문제가 생기는가?
-
21. [계산] 객관식
값 0,1의 확률이 각각 0.7,0.3이면 기댓값은?
-
22. [계산] 객관식
값 5,9의 확률이 각각 0.5,0.5이면 기댓값은?
-
23. [쉬움] 객관식
확률변수 X가 0일 확률 0.5, 1일 확률 0.5일 때 기댓값은?
-
24. [보통] 객관식
X가 1일 확률 0.2, 2일 확률 0.8일 때 기댓값은?
-
25. [쉬움] 객관식
확률분포에서 모든 가능한 값의 확률을 더하면?
-
26. [쉬움] 객관식
read count처럼 0, 1, 2, 3개로 셀 수 있는 값은 보통 어떤 형태인가?
-
27. [쉬움] 객관식
농도처럼 1.2, 1.25, 1.251 등 연속적으로 변할 수 있는 값은?
-
28. [보통] 객관식
두 유전자의 평균 발현량은 같지만 하나의 표준편차가 훨씬 크다. 올바른 해석은?
-
29. [보통] 객관식
X가 0, 2를 각각 확률 0.5로 가질 때 기댓값은?
-
30. [보통] 객관식
분산의 직관으로 가장 적절한 것은?
-
31. [쉬움] 객관식
X가 0일 확률 0.5, 2일 확률 0.5이면 기대값은?
-
32. [쉬움] 객관식
분산이 측정하는 것은?
-
33. [보통] 객관식
평균 10, 표준편차 2, 관찰값 14의 z-score는?
-
34. [쉬움] 객관식
z-score가 0이면?
-
35. [어려움] 객관식
z-score 해석의 주의점은?
-
주관식 36. [보통] 주관식 · Gemini 채점
확률변수와 분포의 관계를 설명하라.
-
주관식 37. [보통] 주관식 · Gemini 채점
이산형 자료와 연속형 자료의 차이를 설명하라.
-
주관식 38. [보통] 주관식 · Gemini 채점
기댓값이 실제 한 번의 결과와 다른 이유를 설명하라.
-
주관식 39. [보통] 주관식 · Gemini 채점
평균만 보지 않고 분포를 봐야 하는 이유를 설명하라.
-
주관식 40. [보통] 주관식 · Gemini 채점
기댓값을 확률적 평균이라고 부르는 이유를 계산 예시로 설명하라.
-
주관식 41. [보통] 주관식 · Gemini 채점
평균이 같은 두 데이터라도 분산이 다르면 해석이 달라지는 이유를 설명하라.
-
주관식 42. [보통] 주관식 · Gemini 채점
평균 50, 표준편차 10인 지표에서 값 70의 z-score를 계산하라.
-
주관식 43. [보통] 주관식 · Gemini 채점
분산이 큰 유전자를 바로 중요한 유전자라고 단정하면 안 되는 이유를 설명하라.