부록 D14: 가설검정

4 분 소요

이 장에서 배울 것

이번 장에서는 가설검정(hypothesis testing)을 배웁니다. 가설검정은 “보이는 차이가 진짜 의미 있는 차이인지, 우연히 생긴 흔들림인지”를 판단하는 통계적 방법입니다. 생물정보학에서는 암 조직과 정상 조직의 유전자 발현량 차이, 특정 변이와 질병의 관련성, 약물 처리 전후의 변화 등을 검정할 때 사용합니다.

핵심 용어를 먼저 정리하겠습니다.

귀무가설(null hypothesis): 일단 “차이가 없다” 또는 “효과가 없다”고 보는 기본 가설입니다.
대립가설(alternative hypothesis): 우리가 확인하고 싶은 “차이가 있다” 또는 “효과가 있다”는 가설입니다.
검정통계량(test statistic): 데이터가 귀무가설에서 얼마나 멀리 떨어져 있는지 나타내는 계산값입니다.
p값(p-value): 귀무가설이 맞다고 가정했을 때, 지금만큼 극단적인 결과가 나올 가능성을 나타내는 값입니다.
유의수준(significance level): p값을 보고 판단하기 위해 미리 정한 기준입니다. 보통 0.05를 자주 씁니다.
1종 오류(type I error): 실제로 차이가 없는데 차이가 있다고 판단하는 오류입니다.
2종 오류(type II error): 실제로 차이가 있는데 차이가 없다고 판단하는 오류입니다.
검정력(power): 실제 차이가 있을 때 그것을 잡아낼 가능성입니다.

가설검정의 기본 흐름

가장 쉬운 비유: 동전이 공정한지 확인하기

동전을 10번 던졌는데 앞면이 10번 나왔다고 합시다. “이 동전은 수상한가?”라는 생각이 듭니다. 하지만 동전이 공정해도 우연히 앞면이 많이 나올 수는 있습니다. 문제는 “이 정도 결과가 그냥 우연이라고 보기 어려운가?”입니다.

가설검정은 이런 판단을 숫자로 정리합니다. 먼저 “동전은 공정하다”를 기본 가설로 둡니다. 이것이 귀무가설입니다. 그다음 관찰된 결과가 이 기본 가설 아래에서 얼마나 이상한지 봅니다.

귀무가설과 대립가설

가설검정은 보통 귀무가설에서 시작합니다.

귀무가설: 차이가 없다.
대립가설: 차이가 있다.

예를 들어 암 조직과 정상 조직에서 유전자 A의 발현량을 비교한다고 합시다.

귀무가설: 암 조직과 정상 조직의 평균 발현량은 같다.
대립가설: 두 평균 발현량은 다르다.

중요한 점은, 통계는 대립가설을 직접 증명한다기보다 “귀무가설만으로는 이 결과를 설명하기 어렵다”고 판단하는 방식으로 움직인다는 것입니다.

p값의 의미

p값은 자주 오해됩니다. p값은 “대립가설이 맞을 확률”이 아닙니다. p값은 다음에 가깝습니다.

귀무가설이 맞다고 가정했을 때,
지금 관찰한 결과만큼 극단적인 결과가 나올 가능성

예를 들어 p값이 0.03이면, 귀무가설이 맞다는 가정 아래 이런 정도의 결과가 나올 가능성이 3% 정도라는 뜻입니다. 그래서 유의수준 0.05보다 작으면 보통 귀무가설을 기각합니다.

유의수준과 판단

유의수준을 0.05로 정했다고 합시다.

p값 < 0.05 → 귀무가설 기각
p값 ≥ 0.05 → 귀무가설 기각하지 않음

“기각하지 않음”은 “귀무가설이 참이라고 증명됨”이 아닙니다. 단지 지금 데이터만으로는 귀무가설을 버릴 만큼 강한 증거가 없다는 뜻입니다.

검정통계량의 직관

검정통계량은 관찰된 값이 기준에서 얼마나 멀리 떨어져 있는지 보는 숫자입니다. 입문 단계에서는 다음과 같은 단순한 모양을 생각하면 됩니다.

검정통계량 = (관찰값 - 기대값) / 표준오차

예를 들어 기대값이 100, 관찰값이 110, 표준오차가 5라면 다음과 같습니다.

(110 - 100) / 5 = 2

즉 관찰값이 기대값에서 표준오차 2개만큼 떨어져 있다는 뜻입니다.

1종 오류와 2종 오류

가설검정은 항상 오류 가능성을 가집니다.

1종 오류는 실제로 차이가 없는데 차이가 있다고 말하는 것입니다. 예를 들어 실제로 질병과 관련 없는 유전자를 관련 있다고 발표하는 경우입니다.

2종 오류는 실제로 차이가 있는데 차이가 없다고 놓치는 것입니다. 예를 들어 실제로 중요한 유전자를 데이터가 부족해서 잡아내지 못하는 경우입니다.

검정력은 2종 오류의 반대쪽 개념입니다. 실제 차이가 있을 때 그것을 발견할 힘입니다. 표본수가 커지거나 효과가 클수록 검정력은 보통 좋아집니다.

계산 감각

이 장에서 필요한 계산은 크게 세 가지입니다.

1. p값과 유의수준 비교하기
2. 검정통계량 = (관찰값 - 기대값) / 표준오차
3. 검정력 = 1 - 2종 오류 확률

예를 들어 p값이 0.03이고 유의수준이 0.05이면 0.03 < 0.05이므로 귀무가설을 기각합니다. 관찰값 12, 기대값 10, 표준오차 1이면 검정통계량은 2입니다. 2종 오류 확률이 0.2이면 검정력은 0.8입니다.

생물정보학에서 왜 중요한가

차등 발현 분석, 변이 연관성 분석, 약물 반응 비교는 모두 “관찰된 차이가 우연인가, 의미 있는 신호인가”를 묻습니다. 가설검정을 모르면 p값을 기계적으로 해석하게 되고, p값이 작다는 이유만으로 생물학적으로 중요한 결과라고 착각할 수 있습니다.

검정은 결론을 대신 내려주는 기계가 아닙니다. 데이터의 크기, 실험설계, 효과 크기, 생물학적 의미와 함께 읽어야 합니다.

보강: p값, 효과크기, 표본수의 관계

가설검정에서 p값만 보면 위험합니다. p값은 “효과가 얼마나 큰가”를 직접 말해 주지 않습니다. 표본수가 매우 크면 아주 작은 차이도 p값이 작아질 수 있고, 표본수가 너무 작으면 꽤 큰 차이도 p값이 크게 나올 수 있습니다.

예를 들어 유전자 A의 평균 발현량 차이가 두 연구에서 다음과 같다고 합시다.

연구 1: 평균 차이 0.2, 표본수 10,000명, p값 0.001
연구 2: 평균 차이 2.0, 표본수 8명, p값 0.08

연구 1은 통계적으로 유의하지만 차이 자체는 작습니다. 연구 2는 p값 0.05 기준으로는 유의하지 않지만 차이 크기는 큽니다. 그러므로 생물정보학자는 p값과 함께 효과크기, 표본수, 실험설계, 측정 잡음을 같이 봐야 합니다.

p값 해석의 안전한 문장

p값이 0.03일 때 안전한 해석은 다음에 가깝습니다.

귀무가설이 맞다고 가정하면, 지금 관찰한 정도 또는 그보다 더 극단적인 결과가 나올 가능성이 약 3%이다.

반대로 다음 해석은 위험합니다.

p값 0.03이므로 귀무가설이 참일 확률은 3%다.  ← 틀린 해석
p값 0.03이므로 이 유전자는 반드시 중요하다.  ← 틀린 해석
p값 0.06이므로 아무 차이도 없다.              ← 틀린 해석

p ≥ 0.05는 차이가 없다는 증명이 아닙니다. 단지 현재 데이터로는 귀무가설을 버릴 만큼 강한 증거가 부족하다는 뜻입니다.

생물정보학 예시: 차등 발현 분석

암 조직 20개와 정상 조직 20개에서 유전자 B의 발현량을 비교한다고 합시다. 검정통계량을 단순화해서 다음처럼 계산할 수 있습니다.

검정통계량 = (관찰된 평균 차이 - 귀무가설의 기대 차이) / 표준오차

귀무가설에서 기대 차이는 보통 0입니다. 관찰된 평균 차이가 1.5이고 표준오차가 0.5라면 다음과 같습니다.

검정통계량 = (1.5 - 0) / 0.5 = 3

이 값은 관찰된 차이가 표준오차 3개만큼 0에서 떨어져 있다는 뜻입니다. 하지만 이 결과도 “유전자 B가 암의 원인이다”라는 결론을 바로 허용하지는 않습니다. 가설검정은 차이를 보여 줄 뿐, 인과관계는 실험설계와 추가 검증이 필요합니다.

보강 학습: p-value와 effect size

왜 필요한가: 통계적으로 드문 결과인지와 실제 효과가 큰지를 분리해 읽기 위해 필요합니다.

공식 읽기: z=(x-μ)/σ. x는 관찰값, μ는 기준 평균, σ는 표준편차입니다. z는 기준에서 몇 표준편차 떨어졌는지 나타냅니다.

숫자 예시: 평균 100, 표준편차 20, 관찰값 140이면 z=2입니다.

생물정보학에서 쓰이는 장면: 차등발현 분석에서 p-value/FDR은 통계적 근거, log2FC는 효과크기를 보여 줍니다.

흔한 오해와 주의점: p<0.05는 생물학적 중요성의 자동 도장이 아닙니다. 효과크기, 신뢰구간, FDR, 재현성을 함께 봐야 합니다.

핵심 정리

가설검정은 차이나 효과가 우연으로 설명될 수 있는지 판단하는 방법입니다. 귀무가설은 보통 “차이가 없다”이고, 대립가설은 “차이가 있다”입니다. p값은 귀무가설 아래에서 현재만큼 극단적인 결과가 나올 가능성입니다. 유의수준과 비교해 귀무가설 기각 여부를 판단하지만, p값은 진실의 확률이 아닙니다. 1종 오류는 거짓 양성, 2종 오류는 거짓 음성과 비슷하게 이해할 수 있습니다.

Gemini AI 채점

주관식 답안은 Gemini API로 채점합니다. API 키는 이 브라우저에만 저장됩니다.

API KEY 미등록

1. [쉬움] 객관식

귀무가설의 설명으로 가장 적절한 것은?

선택지 보통 차이나 효과가 없다고 보는 기본 가설이다. 항상 연구자가 원하는 결론이다. p값과 같은 말이다. 표본평균 계산식이다.
2. [쉬움] 객관식

대립가설의 설명으로 가장 적절한 것은?

선택지 항상 기각해야 하는 가설이다. 차이나 효과가 있다고 보는 가설이다. 표준오차의 다른 이름이다. 검정 횟수이다.
3. [계산] 객관식

p값 0.03, 유의수준 0.05일 때 판단은?

선택지 귀무가설을 반드시 참으로 증명한다. 판단을 할 수 없다. 귀무가설을 기각한다. 표본수를 0으로 만든다.
4. [계산] 객관식

p값 0.08, 유의수준 0.05일 때 판단은?

선택지 귀무가설을 기각한다. p값을 0으로 바꾼다. 대립가설이 100% 참이다. 귀무가설을 기각하지 않는다.
5. [계산] 객관식

관찰값 110, 기대값 100, 표준오차 5일 때 검정통계량은?

선택지 2 5 10 20
6. [계산] 객관식

관찰값 90, 기대값 100, 표준오차 5일 때 검정통계량은?

선택지 2 -2 -10 10
7. [계산] 객관식

관찰값 15, 기대값 10, 표준오차 1일 때 검정통계량은?

선택지 1 10 5 15
8. [계산] 객관식

관찰값 20, 기대값 12, 표준오차 4일 때 검정통계량은?

선택지 4 8 32 2
9. [계산] 객관식

2종 오류 확률이 0.2이면 검정력은?

선택지 0.8 0.2 1.2 0.02
10. [계산] 객관식

2종 오류 확률이 0.3이면 검정력은?

선택지 0.3 0.7 1.3 0.03
11. [보통] 객관식

1종 오류의 설명으로 적절한 것은?

선택지 실제로 차이가 있는데 놓치는 오류이다. 표본평균을 계산하는 방법이다. 실제로 차이가 없는데 차이가 있다고 판단하는 오류이다. 검정력을 높이는 공식이다.
12. [보통] 객관식

2종 오류의 설명으로 적절한 것은?

선택지 실제로 차이가 없는데 있다고 판단하는 오류이다. p값이 항상 0인 상태이다. 표준오차의 다른 이름이다. 실제로 차이가 있는데 차이가 없다고 판단하는 오류이다.
13. [보통] 객관식

p값의 올바른 해석에 가장 가까운 것은?

선택지 귀무가설이 맞다고 가정했을 때 현재만큼 극단적인 결과가 나올 가능성이다. 대립가설이 참일 확률이다. 귀무가설이 참일 확률 그 자체이다. 효과 크기의 단위이다.
14. [계산] 객관식

p값 0.001, 유의수준 0.01일 때 판단은?

선택지 귀무가설을 기각하지 않는다. 귀무가설을 기각한다. p값을 평균으로 바꾼다. 검정력이 0이다.
15. [계산] 객관식

p값 0.02, 유의수준 0.01일 때 판단은?

선택지 귀무가설을 기각한다. 대립가설이 100% 참이다. 귀무가설을 기각하지 않는다. 표준오차가 0이다.
16. [계산] 객관식

관찰값 50, 기대값 40, 표준오차 2일 때 검정통계량은?

선택지 2 10 90 5
17. [계산] 객관식

관찰값 36, 기대값 30, 표준오차 3일 때 검정통계량은?

선택지 2 3 6 12
18. [계산] 객관식

2종 오류 확률이 0.1이면 검정력은?

선택지 0.1 0.9 1.1 0.01
19. [쉬움] 객관식

유의수준 0.05의 의미로 적절한 것은?

선택지 p값이 항상 0.05라는 뜻이다. 효과가 5배라는 뜻이다. 판단 기준으로 0.05를 미리 정했다는 뜻이다. 표본수가 5라는 뜻이다.
20. [보통] 객관식

“귀무가설을 기각하지 않는다”의 올바른 의미는?

선택지 귀무가설이 완전히 참으로 증명됐다는 뜻이다. 대립가설이 반드시 참이라는 뜻이다. 분산이 없어졌다는 뜻이다. 지금 데이터만으로는 귀무가설을 버릴 만큼 강한 증거가 없다는 뜻이다.
21. [계산] 객관식

p값 0.049, 유의수준 0.05이면?

선택지 귀무가설을 기각한다. 귀무가설을 기각하지 않는다. 검정할 수 없다. 표본수가 49이다.
22. [계산] 객관식

p값 0.051, 유의수준 0.05이면?

선택지 귀무가설을 기각한다. 귀무가설을 기각하지 않는다. p값이 음수이다. 검정력이 1이다.
23. [보통] 객관식

표본수가 커지면 보통 검정력은 어떻게 되는가?

선택지 항상 0이 된다. 항상 작아진다. 커지는 경향이 있다. 유의수준과 같아진다.
24. [쉬움] 객관식

가설검정의 목적에 가장 가까운 것은?

선택지 모든 생물학 문제를 증명 없이 해결하는 것이다. 항상 p값을 크게 만드는 것이다. 데이터를 지우는 것이다. 관찰된 차이가 우연으로 설명될 수 있는지 판단하는 것이다.
25. [계산] 객관식

관찰값 18, 귀무가설 기대값 10, 표준오차 4일 때 검정통계량은?

선택지 2 4 8 0.5
26. [계산] 객관식

유의수준 0.05에서 p값 0.012의 판단으로 적절한 것은?

선택지 기각하지 않는다 귀무가설을 기각한다 귀무가설이 참일 확률 1.2%다 효과크기가 반드시 크다
27. [계산] 객관식

2종 오류 확률이 0.15이면 검정력은?

선택지 0.15 0.70 0.85 1.15
28. [사례 판단] 객관식

p값 0.06의 가장 안전한 해석은?

선택지 차이가 전혀 없음이 증명됐다 대립가설이 거짓일 확률이 94%다 효과가 반드시 생물학적으로 작다 0.05 기준에서는 귀무가설을 기각할 만큼 증거가 부족하다
29. [계산] 객관식

암 조직 평균이 15, 정상 조직 평균이 11이고 표준오차가 2라면 단순 검정통계량은?

선택지 2 4 8 0.5
30. [사례 판단] 객관식

표본수가 매우 커서 평균 차이 0.05도 p값이 매우 작게 나왔다. 가장 적절한 태도는?

선택지 p값이 작으니 생물학적 중요성도 자동으로 크다 효과크기와 생물학적 의미를 함께 확인한다 p값은 계산하지 않아도 된다 귀무가설이 참일 확률을 직접 계산한다
31. [용어 구분] 객관식

실제로 차이가 없는데 차이가 있다고 판단한 경우는?

선택지 2종 오류 검정력 1종 오류 표준오차
32. [계산] 객관식

기대값 100, 관찰값 94, 표준오차 3일 때 검정통계량은?

선택지 -6 3 6 -2
33. [쉬움] 객관식

p-value가 작다는 뜻은?

선택지 효과가 반드시 크다. 귀무가설 아래에서 관찰 결과가 드문 편이다. 원인 관계가 증명됐다. 표본수가 0이다.
34. [쉬움] 객관식

effect size의 예는?

선택지 파일명 그래프 색상 log2FC 연구실 주소
35. [보통] 객관식

표본수가 매우 크면?

선택지 p-value가 항상 1이다. 효과크기가 자동으로 커진다. 교란변수가 사라진다. 아주 작은 효과도 유의할 수 있다.
36. [보통] 객관식

p-value와 함께 봐야 할 것은?

선택지 effect size와 신뢰구간 파일 확장자 배경색 페이지 수
37. [쉬움] 객관식

평균 100, 표준편차 20, 관찰값 140의 z-score는?

선택지 1 2 4 7
주관식 38. [보통] 주관식 · Gemini 채점

귀무가설과 대립가설의 차이를 설명하라.
주관식 39. [보통] 주관식 · Gemini 채점

p값을 “대립가설이 맞을 확률”이라고 해석하면 안 되는 이유를 설명하라.
주관식 40. [보통] 주관식 · Gemini 채점

1종 오류와 2종 오류를 구분해 설명하라.
주관식 41. [보통] 주관식 · Gemini 채점

가설검정 결과를 생물학적 의미와 함께 봐야 하는 이유를 설명하라.
주관식 42. [심화] 주관식 · Gemini 채점

p값이 작지만 효과크기가 매우 작은 차등 발현 결과를 어떻게 해석해야 하는지 설명하라.
주관식 43. [보통] 주관식 · Gemini 채점

유전자 A는 log2FC=0.05, p=1e-8이고 B는 log2FC=2.0, p=0.08이다. 어떻게 해석할지 설명하라.
주관식 44. [보통] 주관식 · Gemini 채점

p-value와 effect size의 차이를 차등발현 분석 예시로 설명하라.