부록 D13: 통계적 추정

5 분 소요

이 장에서 배울 것

이번 장에서는 통계적 추정(statistical estimation)을 배웁니다. 추정은 “전체를 다 볼 수 없을 때, 일부를 보고 전체의 모습을 조심스럽게 짐작하는 일”입니다. 생물정보학에서는 환자 전체, 세포 전체, 유전자 전체를 항상 완벽하게 볼 수 없습니다. 그래서 표본(sample)을 보고 모집단(population)을 추정합니다.

핵심 용어를 먼저 정리하겠습니다.

모집단(population): 우리가 알고 싶은 전체 대상입니다. 예를 들어 어떤 질병 환자 전체가 모집단이 될 수 있습니다.
표본(sample): 모집단에서 실제로 관찰한 일부 대상입니다.
추정량(estimator): 표본으로 모집단의 값을 짐작하는 계산 규칙입니다. 예를 들어 표본평균은 모집단 평균을 짐작하는 추정량입니다.
편향(bias): 추정값이 한쪽으로 계속 치우치는 정도입니다.
분산(variance): 추정값이 이리저리 흔들리는 정도입니다.
표준오차(standard error): 표본평균 같은 추정값이 얼마나 흔들릴 수 있는지 나타내는 값입니다.
신뢰구간(confidence interval): 추정값 주변에 “진짜 값이 이 안에 있을 것 같다”고 제시하는 범위입니다.
최대가능도추정(maximum likelihood estimation): 관찰된 데이터가 가장 그럴듯하게 나오도록 만드는 값을 찾는 방법입니다. 앞으로는 영어 약어인 MLE라고도 부르겠습니다.

표본으로 모집단을 추정하는 과정

가장 쉬운 비유: 국 냄비 전체 맛을 한 숟가락으로 짐작하기

큰 냄비에 국이 있다고 합시다. 냄비 전체를 다 마시지 않아도 한 숟가락을 떠서 맛을 볼 수 있습니다. 한 숟가락이 표본이고, 냄비 전체가 모집단입니다. 한 숟가락 맛으로 냄비 전체의 짠맛을 짐작하는 일이 추정입니다.

하지만 한 숟가락이 항상 완벽한 대표는 아닙니다. 소금이 한쪽에 몰려 있으면 어떤 숟가락은 너무 짜고, 어떤 숟가락은 싱거울 수 있습니다. 그래서 표본은 우연히 흔들립니다. 통계적 추정은 이 흔들림까지 인정하면서 조심스럽게 전체를 짐작하는 방법입니다.

모집단과 표본

모집단은 우리가 정말 알고 싶은 전체입니다. 예를 들어 “한국의 특정 질병 환자 전체에서 어떤 유전자의 평균 발현량”을 알고 싶다고 합시다. 하지만 모든 환자의 세포를 분석하는 것은 거의 불가능합니다. 그래서 일부 환자만 분석합니다. 이 일부가 표본입니다.

표본을 잘 뽑으면 모집단을 꽤 잘 짐작할 수 있습니다. 반대로 표본이 한쪽으로 치우치면 추정도 치우칩니다. 예를 들어 중증 환자만 모아서 분석하면 전체 환자의 평균과 다를 수 있습니다.

평균 추정

가장 쉬운 추정은 평균입니다. 표본값이 다음과 같다고 합시다.

4, 6, 8

표본평균은 다음처럼 계산합니다.

표본평균 = (4 + 6 + 8) / 3 = 6

이 6은 표본의 평균입니다. 동시에 모집단 평균을 짐작하는 값으로 사용할 수 있습니다. 물론 진짜 모집단 평균이 정확히 6이라고 단정하면 안 됩니다. 표본이 바뀌면 표본평균도 바뀔 수 있기 때문입니다.

편향과 분산

편향은 화살이 과녁의 한쪽으로 계속 빗나가는 상황과 비슷합니다. 추정값이 매번 진짜 값보다 크게 나오거나 작게 나오면 편향이 있습니다.

분산은 화살들이 얼마나 넓게 흩어지는지입니다. 평균적으로는 과녁 근처를 향해도, 화살들이 넓게 흩어지면 추정이 불안정합니다.

편향: 한쪽으로 치우침
분산: 이리저리 흔들림

좋은 추정은 보통 편향이 작고, 분산도 너무 크지 않아야 합니다.

표준오차

표준오차는 “표본평균이 얼마나 흔들릴 수 있는가”를 나타냅니다. 입문 단계에서는 다음 공식을 사용합니다.

표준오차 = 표준편차 / √표본수

예를 들어 표준편차가 10이고 표본수가 25라면 다음과 같습니다.

표준오차 = 10 / √25 = 10 / 5 = 2

표본수가 커질수록 √표본수도 커지므로 표준오차는 작아집니다. 즉, 더 많은 표본을 보면 평균 추정이 보통 더 안정됩니다.

신뢰구간

신뢰구간은 추정값 하나만 던지는 대신 범위를 함께 제시하는 방법입니다. 입문 단계에서는 아주 단순한 근사로 다음을 사용하겠습니다.

대략적인 95% 신뢰구간 ≈ 표본평균 ± 2 × 표준오차

예를 들어 표본평균이 10이고 표준오차가 2라면 다음과 같습니다.

10 ± 2 × 2 = 10 ± 4

따라서 범위는 6에서 14입니다. 이것은 “우리가 관찰한 데이터 기준으로 진짜 평균이 이 근처에 있을 가능성이 높다”는 식의 조심스러운 표현입니다.

최대가능도추정의 직관

MLE는 이름이 어렵지만 생각은 단순합니다. 관찰된 데이터가 가장 그럴듯하게 나오는 값을 찾는 것입니다.

예를 들어 동전을 10번 던졌는데 앞면이 7번 나왔다고 합시다. 이 데이터만 보면 앞면 확률을 0.5라고 보는 것보다 0.7이라고 보는 쪽이 더 그럴듯합니다. 그래서 단순한 상황에서 MLE는 다음처럼 생각할 수 있습니다.

앞면 확률 추정값 = 앞면 횟수 / 전체 횟수 = 7 / 10 = 0.7

계산 감각

이 장의 계산은 어렵지 않습니다. 다음 네 가지를 손으로 할 수 있으면 충분합니다.

평균 = 값들의 합 / 값의 개수
편향 = 추정값들의 평균 - 진짜 값
표준오차 = 표준편차 / √표본수
대략적 95% 신뢰구간 = 평균 ± 2 × 표준오차

예를 들어 값이 2, 4, 6이면 평균은 4입니다. 추정값들의 평균이 12이고 진짜 값이 10이면 편향은 2입니다. 표준편차가 8이고 표본수가 16이면 표준오차는 2입니다. 평균이 20이고 표준오차가 3이면 대략적 95% 신뢰구간은 14에서 26입니다.

생물정보학에서 왜 중요한가

유전자 발현량, 변이 빈도, 세포 비율, 약물 반응 차이는 대부분 표본에서 얻습니다. 표본 하나에서 나온 숫자를 그대로 진리처럼 받아들이면 위험합니다. 그래서 평균, 표준오차, 신뢰구간, 편향을 함께 봐야 합니다.

계산생물학자는 데이터에서 숫자를 뽑는 사람을 넘어, 그 숫자가 얼마나 믿을 만한지 판단할 수 있어야 합니다.

보강: 추정값을 읽는 순서

통계적 추정에서 초보자가 가장 자주 하는 실수는 숫자 하나를 곧바로 진실처럼 읽는 것입니다. 예를 들어 어떤 RNA-seq 분석에서 유전자 X의 평균 발현량이 환자 표본 9명에서 12로 나왔다고 합시다. 이 숫자는 모집단 전체의 진짜 평균이 아니라, 표본에서 계산된 추정값입니다. 그래서 다음 순서로 읽어야 합니다.

1. 이 숫자는 어떤 표본에서 나왔는가?
2. 표본이 모집단을 잘 대표하는가?
3. 표본수가 충분한가?
4. 표준오차와 신뢰구간은 얼마나 넓은가?
5. 추정값이 생물학적으로 의미 있는 크기인가?

표본이 작으면 추정값은 크게 흔들립니다. 표준편차가 같다고 할 때 표본수 4개와 25개를 비교해 봅시다. 표준편차가 10이면 표준오차는 각각 다음과 같습니다.

표본수 4: 10 / √4 = 10 / 2 = 5
표본수 25: 10 / √25 = 10 / 5 = 2

표본수가 4개에서 25개로 늘면 표준오차가 5에서 2로 줄어듭니다. 이때 중요한 점은 표본수를 5배 넘게 늘렸다고 표준오차가 5배 줄지는 않는다는 것입니다. 표준오차는 √표본수로 나누기 때문에 천천히 줄어듭니다.

생물정보학 예시: 세포 비율 추정

단일세포 RNA-seq에서 어떤 조직 안의 면역세포 비율을 추정한다고 합시다. 전체 조직의 모든 세포를 볼 수 없으므로 일부 세포만 포획합니다. 포획한 1,000개 세포 중 120개가 T 세포라면 표본 비율은 다음과 같습니다.

T 세포 표본 비율 = 120 / 1000 = 0.12 = 12%

하지만 이것만으로 “조직 전체의 T 세포 비율은 정확히 12%다”라고 말하면 안 됩니다. 세포 포획 과정에서 특정 세포가 더 잘 잡히거나, 샘플 준비 과정에서 약한 세포가 더 많이 사라졌다면 표본 자체가 치우칠 수 있습니다. 이런 문제는 표본수가 커져도 완전히 해결되지 않습니다. 표본수가 커지면 우연한 흔들림은 줄지만, 표본을 뽑는 방식이 한쪽으로 치우친 편향은 남을 수 있습니다.

신뢰구간 오해 바로잡기

입문 단계에서는 95% 신뢰구간을 “진짜 값이 있을 법한 범위”라고 이해해도 됩니다. 다만 엄밀하게는 같은 방법으로 표본을 계속 뽑아 신뢰구간을 만들면, 그 구간들 중 약 95%가 참값을 포함한다는 뜻입니다. 따라서 신뢰구간은 데이터가 가진 불확실성을 표현하는 장치이지, 참값을 마법처럼 보장하는 장치가 아닙니다.

계산생물학에서 추정값을 볼 때는 항상 “얼마인가?”와 함께 “얼마나 불확실한가?”를 같이 물어야 합니다.

보강 학습: 추정과 confidence interval

왜 필요한가: 샘플에서 본 값으로 모집단의 값을 짐작할 때 불확실성을 함께 표현하기 위해 필요합니다.

공식 읽기: SE=s/√n. s는 표본 표준편차, n은 표본수입니다. SE는 평균 추정의 흔들림입니다.

숫자 예시: s=10, n=25이면 SE=10/5=2입니다.

생물정보학에서 쓰이는 장면: log2FC, 평균 차이, 회귀계수의 신뢰구간을 읽을 때 필요합니다.

흔한 오해와 주의점: 95% 신뢰구간을 특정 구간 안에 참값이 있을 확률 95%라고 단순화하면 엄밀하지 않습니다. 입문 단계에서는 추정 불확실성 범위로 읽으면 됩니다.

핵심 정리

통계적 추정은 일부 표본으로 전체 모집단을 조심스럽게 짐작하는 일입니다. 표본평균은 모집단 평균을 추정하는 기본 도구입니다. 편향은 한쪽으로 치우친 정도이고, 분산은 흔들리는 정도입니다. 표준오차는 추정값의 흔들림을 나타내며, 신뢰구간은 추정값 주변의 불확실성을 범위로 보여줍니다. MLE는 관찰된 데이터가 가장 그럴듯하게 나오도록 하는 값을 찾는 방법입니다.

Gemini AI 채점

주관식 답안은 Gemini API로 채점합니다. API 키는 이 브라우저에만 저장됩니다.

API KEY 미등록

1. [쉬움] 객관식

모집단의 설명으로 가장 적절한 것은?

선택지 우리가 알고 싶은 전체 대상이다. 실제로 관찰한 일부 대상만 뜻한다. 항상 평균값 하나만 뜻한다. 그래프의 x축 이름이다.
2. [쉬움] 객관식

표본의 설명으로 가장 적절한 것은?

선택지 우리가 알고 싶은 전체 대상이다. 모집단에서 실제로 관찰한 일부 대상이다. 항상 오류가 없는 값이다. 신뢰구간의 다른 이름이다.
3. [계산] 객관식

값 4, 6, 8의 평균은?

선택지 4 8 6 18
4. [계산] 객관식

값 2, 5, 8, 9의 평균은?

선택지 4 5 24 6
5. [계산] 객관식

추정값들의 평균이 12이고 진짜 값이 10이면 편향은?

선택지 2 -2 10 22
6. [계산] 객관식

추정값들의 평균이 7이고 진짜 값이 10이면 편향은?

선택지 3 -3 17 10
7. [계산] 객관식

표준편차가 10, 표본수가 25일 때 표준오차는?

선택지 5 10 2 50
8. [계산] 객관식

표준편차가 12, 표본수가 9일 때 표준오차는?

선택지 3 12 108 4
9. [계산] 객관식

표준편차가 8, 표본수가 16일 때 표준오차는?

선택지 2 4 8 64
10. [계산] 객관식

표준오차가 3, 평균이 20일 때 대략적 95% 신뢰구간은?

선택지 17~23 14~26 20~23 6~34
11. [계산] 객관식

평균 50, 표준오차 5일 때 대략적 95% 신뢰구간은?

선택지 45~55 50~55 40~60 35~65
12. [계산] 객관식

평균 100, 표준오차 4일 때 대략적 95% 신뢰구간은?

선택지 96~104 100~104 88~112 92~108
13. [계산] 객관식

동전을 10번 던져 앞면이 7번 나왔다. 앞면 확률의 단순 MLE는?

선택지 0.7 0.3 7 10
14. [계산] 객관식

검사 20번 중 양성이 5번 나왔다. 양성확률의 단순 추정값은?

선택지 0.5 0.25 4 15
15. [보통] 객관식

표본수가 커지면 보통 표준오차는 어떻게 되는가?

선택지 항상 커진다. 항상 0이 된다. 작아진다. 평균과 같아진다.
16. [보통] 객관식

편향의 설명으로 적절한 것은?

선택지 추정값이 아무 방향으로나 흔들리는 정도만 뜻한다. 표본수의 다른 이름이다. 항상 좋은 성질이다. 추정값이 한쪽으로 계속 치우치는 정도이다.
17. [쉬움] 객관식

분산의 설명으로 적절한 것은?

선택지 추정값이나 데이터가 얼마나 퍼지는지 나타낸다. 항상 평균과 같다. 모집단 전체의 이름이다. p값을 뜻한다.
18. [계산] 객관식

값 1, 2, 3, 4의 평균은?

선택지 2 2.5 3 10
19. [계산] 객관식

평균 30, 표준오차 2일 때 대략적 95% 신뢰구간은?

선택지 28~32 30~32 26~34 24~36
20. [계산] 객관식

표준편차 15, 표본수 25일 때 표준오차는?

선택지 5 15 75 3
21. [계산] 객관식

실제 값이 20이고 추정값들의 평균이 18이면 편향은?

선택지 -2 2 18 38
22. [계산] 객관식

검사 50번 중 성공 10번이면 성공확률의 단순 추정값은?

선택지 0.1 0.2 0.5 5
23. [보통] 객관식

신뢰구간을 쓰는 이유로 가장 적절한 것은?

선택지 평균 계산을 피하기 위해서이다. 표본수를 없애기 위해서이다. 추정값의 불확실성을 범위로 보여주기 위해서이다. 데이터를 모두 같은 값으로 만들기 위해서이다.
24. [계산] 객관식

표준오차가 1.5, 평균이 10이면 대략적 95% 신뢰구간은?

선택지 8.5~11.5 10~11.5 6~14 7~13
25. [계산] 객관식

유전자 발현량 표본값이 8, 10, 12, 14이다. 표본평균은?

선택지 11 12 10 44
26. [계산] 객관식

표준편차가 12이고 표본수가 36일 때 표준오차는?

선택지 3 2 6 12
27. [계산] 객관식

표본평균이 20, 표준오차가 3일 때 대략적 95% 신뢰구간은?

선택지 17~23 10~30 14~26 20~23
28. [계산] 객관식

추정값 9, 11, 13의 평균이 11이고 참값이 10일 때 편향은?

선택지 -1 0 0.5 1
29. [데이터 해석] 객관식

단일세포 2,000개 중 T 세포가 300개였다. 표본 T 세포 비율은?

선택지 15% 30% 6.7% 1.5%
30. [계산] 객관식

표준편차가 그대로일 때 표본수가 9에서 36으로 늘면 표준오차는 어떻게 변하는가?

선택지 4배 커진다 절반이 된다 그대로다 0이 된다
31. [사례 판단] 객관식

표본수가 커져도 해결되지 않는 문제에 가장 가까운 것은?

선택지 우연한 표본 흔들림 표준오차 계산 표본추출 과정의 체계적 편향 평균 계산식
32. [계산] 객관식

동전을 40번 던져 앞면이 26번 나왔다. 앞면 확률의 단순한 MLE는?

선택지 0.40 0.50 0.60 0.65
33. [쉬움] 객관식

표준편차 10, 표본수 25일 때 SE는?

선택지 2 0.4 5 10
34. [보통] 객관식

신뢰구간이 넓다는 뜻은?

선택지 효과가 반드시 없다. 추정 불확실성이 크다. p-value가 0이다. 표본수가 무한대다.
35. [보통] 객관식

log2FC 1.2, 95% CI [0.4,2.0]의 해석은?

선택지 반드시 감소했다. 정확히 1.2로 고정된다. 증가 방향으로 보이나 크기는 불확실하다. 원인 증명이다.
36. [쉬움] 객관식

표본수가 커지면 SE가 줄어드는 이유는?

선택지 표준편차가 항상 0이 된다. outlier가 사라진다. 자동 정규화된다. 분모 √n이 커진다.
37. [어려움] 객관식

신뢰구간 과잉해석은?

선택지 특정 구간 안에 참값이 있을 확률이 정확히 95%라고 단정한다. 불확실성을 나타낸다. 표본을 다시 뽑으면 달라질 수 있다. 구간 폭을 본다.
주관식 38. [보통] 주관식 · Gemini 채점

모집단과 표본의 차이를 국 냄비 비유 없이 직접 설명하라.
주관식 39. [보통] 주관식 · Gemini 채점

표준오차가 표본수와 어떤 관계를 가지는지 설명하라.
주관식 40. [보통] 주관식 · Gemini 채점

신뢰구간을 추정값과 함께 제시하는 이유를 설명하라.
주관식 41. [보통] 주관식 · Gemini 채점

MLE의 직관을 설명하라.
주관식 42. [심화] 주관식 · Gemini 채점

RNA-seq에서 평균 발현량 추정값을 제시할 때 표본수, 표준오차, 신뢰구간을 함께 확인해야 하는 이유를 설명하라.
주관식 43. [보통] 주관식 · Gemini 채점

표본 표준편차 12, 표본수 36일 때 평균의 표준오차를 계산하라.
주관식 44. [보통] 주관식 · Gemini 채점

p-value가 유의하더라도 신뢰구간을 함께 봐야 하는 이유를 설명하라.