부록 D11: 확률변수와 분포

4 분 소요

이 장에서 배울 것

이번 장에서는 확률변수(random variable)와 분포(distribution)를 배웁니다. 확률변수는 불확실한 결과를 숫자로 바꾼 것입니다. 분포는 그 숫자들이 어떤 확률로 나타나는지 보여주는 지도입니다.

핵심 용어를 먼저 정리하겠습니다.

확률변수(random variable): 우연한 결과를 숫자로 나타낸 것입니다.
이산형(discrete): 셀 수 있는 값만 가지는 경우입니다. 예를 들어 읽힘 수, 변이 개수, 성공 횟수입니다.
연속형(continuous): 키, 농도, 시간처럼 연속적인 값을 가질 수 있는 경우입니다.
분포(distribution): 어떤 값이 얼마나 자주 또는 어떤 확률로 나오는지 나타낸 것입니다.
기댓값(expected value): 확률적으로 예상되는 평균적인 값입니다.
분산(variance): 값들이 기댓값 주변에서 얼마나 퍼지는지 나타내는 값입니다.
표준편차(standard deviation): 분산의 제곱근입니다. 원래 단위와 비슷하게 해석하기 쉽습니다.

확률변수와 분포의 기본 생각

가장 쉬운 비유: 동전 앞면 개수를 숫자로 세기

동전을 두 번 던진다고 합시다. 가능한 결과는 다음과 같습니다.

앞앞, 앞뒤, 뒤앞, 뒤뒤

여기서 “앞면이 나온 개수”를 숫자로 세면 다음과 같습니다.

앞앞 → 2
앞뒤 → 1
뒤앞 → 1
뒤뒤 → 0

이때 “앞면 개수”가 확률변수입니다. 실제 결과는 우연히 정해지지만, 우리는 그 결과를 0, 1, 2라는 숫자로 바꿔 다룹니다.

분포는 확률의 지도입니다

동전 두 번 던지기에서 앞면 개수의 분포를 쓰면 다음과 같습니다.

앞면 0개: 1/4
앞면 1개: 2/4
앞면 2개: 1/4

이 표가 분포입니다. 어떤 값이 얼마나 나올 가능성이 있는지 보여줍니다.

생물정보학에서는 분포를 이해하는 일이 매우 중요합니다. 어떤 유전자의 읽힘 수가 보통 어느 정도인지, 변이가 몇 개 정도 나올지, 세포별 발현량이 어떻게 퍼져 있는지 모두 분포의 문제입니다.

이산형과 연속형

이산형 값은 하나, 둘, 셋처럼 셀 수 있습니다. RNA-seq의 읽힘 수는 0개, 1개, 2개처럼 셀 수 있으므로 이산형입니다. 변이 개수, 세포 수, 성공 횟수도 이산형입니다.

연속형 값은 끊어지지 않고 이어지는 값입니다. 키, 몸무게, 시간, 농도, 온도 같은 값이 대표적입니다. 실제 측정 장비는 소수점 몇 자리까지만 기록하지만, 개념적으로는 연속적인 양으로 볼 수 있습니다.

데이터가 이산형인지 연속형인지에 따라 적절한 확률분포와 통계 방법이 달라집니다.

기댓값: 확률적 평균

기댓값은 “오래 반복했을 때 평균적으로 기대되는 값”입니다. 값마다 그 값이 나올 확률을 곱한 뒤 모두 더합니다.

예를 들어 어떤 확률변수 X가 다음처럼 분포한다고 합시다.

X=0일 확률: 0.5
X=2일 확률: 0.5

기댓값은 다음과 같습니다.

0×0.5 + 2×0.5 = 1

즉 평균적으로는 1을 기대할 수 있습니다. 실제 한 번의 결과가 반드시 1이라는 뜻은 아닙니다. 실제 결과는 0 또는 2입니다. 기댓값은 긴 반복에서의 중심을 말합니다.

분산: 얼마나 흔들리는가

기댓값이 같아도 분포의 퍼짐은 다를 수 있습니다. 예를 들어 두 실험의 평균 읽힘 수가 모두 10이라고 해도, 하나는 대부분 9~11 사이에 있고 다른 하나는 0~20 사이에 넓게 퍼질 수 있습니다.

분산은 값들이 기댓값에서 얼마나 떨어져 있는지 평균적으로 보는 값입니다. 처음에는 정확한 공식보다 “흔들림의 크기”라고 이해하면 됩니다.

표준편차는 분산의 제곱근입니다. 분산보다 원래 데이터 단위와 해석이 비슷해서 자주 사용됩니다.

분포를 보면 평균만 볼 때보다 더 많이 안다

두 유전자의 평균 발현량이 같다고 해도 분포가 다를 수 있습니다. 한 유전자는 모든 세포에서 비슷하게 발현될 수 있고, 다른 유전자는 일부 세포에서만 매우 강하게 발현될 수 있습니다.

평균만 보면 둘을 구분하기 어렵습니다. 분포를 보면 훨씬 더 많은 정보를 얻습니다. 단일세포 분석에서 분포와 퍼짐이 중요한 이유도 여기에 있습니다.

계산 감각 1: 기댓값

X=1일 확률 0.5
X=3일 확률 0.5

기댓값은 다음과 같습니다.

1×0.5 + 3×0.5 = 2

계산 감각 2: 확률의 합

분포에서 모든 확률을 더하면 1이어야 합니다.

0.2 + 0.3 + 0.5 = 1.0

만약 확률의 합이 1이 아니라면, 분포 표에 빠진 경우가 있거나 잘못 쓴 것입니다.

계산 감각 3: 이산형 값의 평균

값이 0, 1, 2이고 확률이 각각 0.25, 0.5, 0.25라면 기댓값은 다음과 같습니다.

0×0.25 + 1×0.5 + 2×0.25 = 1

생물정보학에서 왜 중요한가

RNA-seq의 읽힘 수, 변이 개수, 세포별 발현량, 환자별 위험 점수는 모두 확률변수처럼 생각할 수 있습니다. 데이터가 어떤 분포를 따르는지 이해하면 왜 특정 통계 방법을 쓰는지 알 수 있습니다.

예를 들어 읽힘 수는 셀 수 있는 개수이므로 일반적인 연속형 값과 다르게 다루어야 합니다. RNA-seq에서 음이항 분포가 자주 등장하는 이유도 읽힘 수의 분포와 과도한 퍼짐을 다루기 위해서입니다.

보강: 기댓값과 분산을 직접 계산해 보기

확률변수는 우연한 결과를 숫자로 바꾼 것입니다. 예를 들어 어떤 유전자의 변이 개수 X가 0개일 확률 0.5, 1개일 확률 0.3, 2개일 확률 0.2라면 기댓값은 0×0.5 + 1×0.3 + 2×0.2 = 0.7입니다. 이는 반복해서 관찰했을 때 평균적으로 0.7개 정도를 기대한다는 뜻입니다.

분산은 값이 평균 주변에서 얼마나 흔들리는지 봅니다. 두 유전자의 평균 발현량이 모두 10이어도, 하나는 대부분 9~11 사이이고 다른 하나는 0~20 사이로 크게 흔들릴 수 있습니다. 평균만 보면 둘이 같아 보이지만 분포를 보면 완전히 다른 데이터입니다.

생물정보학에서 이산형과 연속형 구분도 중요합니다. read count, 변이 개수, 세포 수는 셀 수 있는 이산형 데이터입니다. 농도, 시간, 변환된 발현량, 세포 크기는 연속형 데이터로 다루는 경우가 많습니다. 데이터 종류에 따라 적절한 분포와 모델이 달라집니다.

보강 학습: 기대값, 분산, z-score

왜 필요한가: 평균적 중심, 퍼짐, 상대적 위치를 같은 언어로 읽기 위해 필요합니다.

공식 읽기: E[X]=ΣxP(x), Var(X)=E[(X-μ)²], z=(x-μ)/σ. x는 가능한 값, P(x)는 그 확률, μ는 평균, σ는 표준편차입니다.

숫자 예시: 평균 10, 표준편차 2, 관찰값 14이면 z=(14-10)/2=2입니다.

생물정보학에서 쓰이는 장면: 품질 지표, pathway score, 유전자 발현량의 상대적 위치를 비교할 때 쓰입니다.

흔한 오해와 주의점: z-score가 높다고 바로 생물학적으로 중요하다는 뜻은 아닙니다. 분포 모양과 outlier를 확인해야 합니다.

핵심 정리

확률변수는 우연한 결과를 숫자로 바꾼 것입니다. 분포는 그 숫자들이 어떤 확률로 나타나는지 보여주는 지도입니다. 이산형 값은 개수처럼 셀 수 있고, 연속형 값은 농도나 시간처럼 이어지는 값을 가집니다. 기댓값은 확률적 평균이고, 분산은 값들이 얼마나 퍼져 있는지 나타냅니다. 생물 데이터는 평균뿐 아니라 분포를 함께 봐야 제대로 이해할 수 있습니다.

Gemini AI 채점

주관식 답안은 Gemini API로 채점합니다. API 키는 이 브라우저에만 저장됩니다.

API KEY 미등록

1. [쉬움] 객관식

확률변수의 뜻으로 맞는 것은?

선택지 우연한 결과를 숫자로 나타낸 것이다. 항상 고정된 상수이다. 우연한 결과가 아니라 생물학적 분자 이름만 뜻한다. 가능한 결과 전체가 아니라 행렬의 행과 열을 바꾸는 연산이다.
2. [쉬움] 객관식

분포의 뜻으로 맞는 것은?

선택지 항상 값 하나만 가진다. 값들이 어떤 확률로 나타나는지 보여주는 것이다. 확률을 없애는 방법이다. pH의 다른 이름이다.
3. [쉬움] 객관식

이산형 값의 예로 적절한 것은?

선택지 키처럼 연속적인 값만 온도처럼 소수점 값만 읽힘 수처럼 셀 수 있는 개수 시간처럼 무한히 쪼갤 수 있는 값만
4. [쉬움] 객관식

연속형 값의 예로 적절한 것은?

선택지 변이 개수만 성공 횟수만 세포 수만 농도나 시간처럼 이어지는 값
5. [계산] 객관식

확률 0.2, 0.3, 0.5의 합은?

선택지 1.0 0.5 2.0 0.8
6. [계산] 객관식

X=0 확률 0.5, X=2 확률 0.5일 때 기댓값은?

선택지 0 1 2 0.5
7. [계산] 객관식

X=1 확률 0.5, X=3 확률 0.5일 때 기댓값은?

선택지 1 3 2 4
8. [계산] 객관식

X=0,1,2의 확률이 0.25,0.5,0.25이면 기댓값은?

선택지 0.5 2 1.5 1
9. [보통] 객관식

분산의 직관으로 가장 적절한 것은?

선택지 값들이 중심 주변에서 얼마나 퍼져 있는지 나타낸다. 값의 이름을 바꾸는 것이다. 항상 평균과 같다. 확률을 문자열로 바꾸는 것이다.
10. [보통] 객관식

표준편차의 설명으로 적절한 것은?

선택지 항상 확률의 합이다. 분산의 제곱근이며 퍼짐을 해석하기 쉽게 한다. 분포를 삭제하는 값이다. DNA 길이만 뜻한다.
11. [계산] 객관식

동전 두 번에서 앞면 개수의 가능한 값은?

선택지 1,2,3,4 앞,뒤만 0, 1, 2 항상 2
12. [계산] 객관식

동전 두 번에서 앞면 1개가 나올 확률은?

선택지 1/4 3/4 4/4 2/4
13. [보통] 객관식

평균이 같아도 분포를 봐야 하는 이유는?

선택지 퍼짐이나 일부 세포에서만 높은 패턴이 다를 수 있기 때문이다. 평균은 항상 틀리기 때문이다. 분포는 생물학과 무관하기 때문이다. 확률은 1보다 커야 하기 때문이다.
14. [보통] 객관식

RNA-seq 읽힘 수는 보통 어떤 자료형에 가까운가?

선택지 연속형 온도만 이산형 count data 문자열 이름만 단위행렬만
15. [계산] 객관식

확률 0.1,0.2,0.3의 합은?

선택지 1.0 0.5 0.6 0.3
16. [계산] 객관식

확률이 0.4와 0.6인 두 값 2와 7의 기댓값은?

선택지 4 7 9 5
17. [계산] 객관식

X=10 확률 1일 때 기댓값은?

선택지 10 1 0 100
18. [쉬움] 객관식

분포에서 모든 가능한 값의 확률 합은 얼마여야 하는가?

선택지 0 1 2 100
19. [보통] 객관식

기댓값이 실제 한 번의 결과와 반드시 같지 않은 이유는?

선택지 기댓값은 숫자가 아니기 때문이다. 확률변수는 항상 고정값이기 때문이다. 기댓값은 긴 반복에서의 평균적 중심이기 때문이다. 분포가 없기 때문이다.
20. [보통] 객관식

세포별 발현량에서 일부 세포만 매우 높은 경우 평균만 보면 어떤 문제가 생기는가?

선택지 발현량이 모두 사라진다. 확률의 합이 2가 된다. 행렬이 전치된다. 분포의 불균일한 패턴을 놓칠 수 있다.
21. [계산] 객관식

값 0,1의 확률이 각각 0.7,0.3이면 기댓값은?

선택지 0.3 0.7 1.0 0.4
22. [계산] 객관식

값 5,9의 확률이 각각 0.5,0.5이면 기댓값은?

선택지 5 7 9 14
23. [쉬움] 객관식

확률변수 X가 0일 확률 0.5, 1일 확률 0.5일 때 기댓값은?

선택지 0.5 1 0 2
24. [보통] 객관식

X가 1일 확률 0.2, 2일 확률 0.8일 때 기댓값은?

선택지 1.2 1.8 2.0 0.6
25. [쉬움] 객관식

확률분포에서 모든 가능한 값의 확률을 더하면?

선택지 0 0.5 1 자료 수
26. [쉬움] 객관식

read count처럼 0, 1, 2, 3개로 셀 수 있는 값은 보통 어떤 형태인가?

선택지 연속형 범주 이름 없음 항상 정규형 이산형
27. [쉬움] 객관식

농도처럼 1.2, 1.25, 1.251 등 연속적으로 변할 수 있는 값은?

선택지 연속형 이산형만 항상 베르누이 항상 0/1
28. [보통] 객관식

두 유전자의 평균 발현량은 같지만 하나의 표준편차가 훨씬 크다. 올바른 해석은?

선택지 두 분포는 완전히 동일하다. 표준편차가 큰 쪽이 값의 흔들림이 더 크다. 표준편차는 평균과 무관하게 항상 0이다. 평균이 같으면 분포 확인은 불필요하다.
29. [보통] 객관식

X가 0, 2를 각각 확률 0.5로 가질 때 기댓값은?

선택지 0 0.5 1 2
30. [보통] 객관식

분산의 직관으로 가장 적절한 것은?

선택지 데이터의 이름을 바꾸는 정도 확률의 전체 합 그래프의 x축 이름 값들이 평균 주변에서 얼마나 퍼져 있는지
31. [쉬움] 객관식

X가 0일 확률 0.5, 2일 확률 0.5이면 기대값은?

선택지 0 2 1 4
32. [쉬움] 객관식

분산이 측정하는 것은?

선택지 문자열 길이 조건부확률 방향 유전자 이름 평균 주변의 퍼짐
33. [보통] 객관식

평균 10, 표준편차 2, 관찰값 14의 z-score는?

선택지 2 1 4 7
34. [쉬움] 객관식

z-score가 0이면?

선택지 결측이다. 값이 평균과 같다. p-value가 0이다. 분산이 음수다.
35. [어려움] 객관식

z-score 해석의 주의점은?

선택지 높으면 무조건 원인이다. 표준편차는 필요 없다. 분포 모양과 outlier를 함께 확인한다. 항상 정수다.
주관식 36. [보통] 주관식 · Gemini 채점

확률변수와 분포의 관계를 설명하라.
주관식 37. [보통] 주관식 · Gemini 채점

이산형 자료와 연속형 자료의 차이를 설명하라.
주관식 38. [보통] 주관식 · Gemini 채점

기댓값이 실제 한 번의 결과와 다른 이유를 설명하라.
주관식 39. [보통] 주관식 · Gemini 채점

평균만 보지 않고 분포를 봐야 하는 이유를 설명하라.
주관식 40. [보통] 주관식 · Gemini 채점

기댓값을 확률적 평균이라고 부르는 이유를 계산 예시로 설명하라.
주관식 41. [보통] 주관식 · Gemini 채점

평균이 같은 두 데이터라도 분산이 다르면 해석이 달라지는 이유를 설명하라.
주관식 42. [보통] 주관식 · Gemini 채점

평균 50, 표준편차 10인 지표에서 값 70의 z-score를 계산하라.
주관식 43. [보통] 주관식 · Gemini 채점

분산이 큰 유전자를 바로 중요한 유전자라고 단정하면 안 되는 이유를 설명하라.