부록 D15: 다중검정과 FDR
이 장에서 배울 것
이번 장에서는 다중검정(multiple testing)과 거짓발견율(false discovery rate, FDR)을 배웁니다. 가설검정을 한 번만 하면 p값 0.05 기준이 그럭저럭 직관적입니다. 하지만 생물정보학에서는 유전자 2만 개, 변이 수백만 개를 동시에 검사합니다. 이때는 우연히 작게 나온 p값이 많이 생깁니다.
핵심 용어를 먼저 정리하겠습니다.
- 다중검정(multiple testing): 여러 가설검정을 동시에 많이 하는 상황입니다.
- 거짓 양성(false positive): 실제로는 효과가 없는데 효과가 있다고 나온 결과입니다.
- 거짓 음성(false negative): 실제로는 효과가 있는데 놓친 결과입니다.
- 본페로니 보정(Bonferroni correction): 유의수준을 검정 개수로 나누어 매우 엄격하게 조정하는 방법입니다.
- 거짓발견율(false discovery rate, FDR): 발견했다고 부른 결과들 중 거짓 발견이 차지하는 비율을 조절하려는 기준입니다. 앞으로는 영어 약어인 FDR이라고도 부르겠습니다.
- q값(q-value): FDR 관점에서 보정된 p값처럼 사용하는 값입니다.
- 전장유전체 유의수준(genome-wide significance): 유전체 전체를 많이 검사할 때 쓰는 매우 엄격한 유의성 기준입니다.
가장 쉬운 비유: 복권을 많이 사면 당첨처럼 보이는 일이 생긴다
복권 한 장을 샀을 때 당첨될 확률은 낮습니다. 하지만 복권을 아주 많이 사면 그중 몇 장은 우연히 당첨될 수 있습니다. 검정도 비슷합니다. 유전자 하나만 검사하면 우연히 p값이 작게 나올 가능성이 작아 보입니다. 하지만 유전자 2만 개를 검사하면 우연히 p값이 작게 나오는 유전자가 꽤 생길 수 있습니다.
그래서 다중검정에서는 “p값이 0.05보다 작다”만으로 충분하지 않습니다. 검정을 몇 번 했는지를 함께 봐야 합니다.
왜 여러 번 검정하면 위험한가
유의수준 0.05는 귀무가설이 맞아도 약 5%는 거짓 양성이 나올 수 있다는 뜻입니다. 만약 실제로 아무 유전자도 차이가 없는데 100개 유전자를 검사한다면, 기대되는 거짓 양성 수는 다음과 같습니다.
100 × 0.05 = 5
즉 아무 차이가 없어도 약 5개는 우연히 유의해 보일 수 있습니다. 20,000개 유전자를 검사하면 다음처럼 됩니다.
20,000 × 0.05 = 1,000
이래서 생물정보학에서 다중검정 보정은 선택이 아니라 필수입니다.
본페로니 보정
본페로니 보정은 단순하고 엄격합니다.
보정된 기준 = 원래 유의수준 / 검정 개수
예를 들어 원래 유의수준이 0.05이고 검정이 100개라면 기준은 다음과 같습니다.
0.05 / 100 = 0.0005
이제 p값이 0.0005보다 작아야 유의하다고 봅니다. 매우 보수적이어서 거짓 양성은 줄이지만, 진짜 신호도 놓칠 수 있습니다.
FDR의 직관
FDR은 “발견했다고 부른 것들 중 거짓이 얼마나 섞여 있는가”를 조절하려는 생각입니다. 예를 들어 어떤 분석에서 유의하다고 부른 유전자가 100개이고, 그중 약 5개 정도가 거짓일 수 있도록 관리한다면 FDR은 약 5%입니다.
FDR ≈ 거짓 발견 수 / 발견 수
FDR은 본페로니보다 덜 엄격한 경우가 많아서, RNA-seq처럼 유전자 수가 많은 분석에서 자주 사용됩니다.
q값
q값은 FDR 관점에서 해석하는 보정된 값입니다. 입문 단계에서는 이렇게 생각하면 됩니다.
p값: 한 검정의 원래 신호
q값: 다중검정을 고려한 뒤의 신호
q값이 0.05보다 작으면 보통 FDR 5% 기준에서 유의하다고 말합니다.
계산 감각
이 장에서 자주 쓰는 계산은 다음과 같습니다.
기대 거짓 양성 수 = 검정 개수 × 유의수준
본페로니 기준 = 유의수준 / 검정 개수
FDR 근사 = 거짓 발견 수 / 발견 수
예를 들어 1,000개 검정을 0.05 기준으로 하면 기대 거짓 양성 수는 50개입니다. 200개 검정에서 본페로니 기준은 0.05/200=0.00025입니다. 발견 80개 중 거짓 발견이 4개라면 FDR은 4/80=0.05입니다.
생물정보학에서 왜 중요한가
RNA-seq 차등 발현 분석은 수천~수만 개 유전자를 동시에 검사합니다. 전장유전체연관분석(GWAS, 수많은 유전 변이와 질병의 관련성을 찾는 분석)은 수십만~수백만 개 변이를 검사합니다. 이런 상황에서 다중검정을 보정하지 않으면 우연히 나온 결과를 대단한 발견처럼 착각할 수 있습니다.
보강: FWER와 FDR을 구분하기
다중검정에서 중요한 기준은 크게 두 가지입니다. 하나는 FWER이고, 다른 하나는 FDR입니다. FWER는 “발견 목록 전체에서 거짓 양성이 하나라도 나올 확률”을 강하게 줄이려는 관점입니다. 본페로니 보정은 이 관점에 가깝습니다. 반면 FDR은 “발견했다고 부른 것들 중 거짓 발견의 비율”을 조절하려는 관점입니다.
FWER: 거짓 발견이 하나라도 있으면 큰 문제라고 보는 엄격한 기준
FDR : 발견 목록 안에 거짓이 어느 정도 섞일 수 있음을 비율로 관리하는 기준
유전자 수만 개를 동시에 보는 RNA-seq에서는 진짜 신호도 많이 있을 수 있습니다. 이때 본페로니만 쓰면 너무 엄격해서 많은 신호를 놓칠 수 있습니다. 그래서 RNA-seq 결과표에서는 보통 p값보다 q값 또는 adjusted p-value를 더 중요하게 봅니다.
Benjamini-Hochberg 절차의 직관
FDR 보정에서 자주 쓰이는 Benjamini-Hochberg 절차는 p값을 작은 순서로 정렬한 뒤, 순위에 따라 허용 기준을 조금씩 넓혀 가며 판단합니다. 입문 단계에서는 모든 공식을 외우기보다 다음 직관을 잡으면 됩니다.
p값이 작을수록 강한 신호다.
하지만 몇 번째로 작은 p값인지도 중요하다.
검정 개수가 많을수록 같은 p값도 더 조심해서 봐야 한다.
예를 들어 유전자 5개를 검사했고 FDR 기준을 0.05로 잡았다고 합시다. p값이 작게 정렬되어 있을 때 앞쪽 p값은 더 엄격한 기준을 통과해야 합니다. 많은 유전자를 검사할수록 우연히 작은 p값이 나올 수 있기 때문입니다.
생물정보학 결과표를 읽는 법
차등 발현 분석 결과표가 다음과 같다고 합시다.
유전자 log2FC p값 q값
A 2.1 0.0001 0.004
B 0.1 0.0100 0.200
C -1.5 0.0030 0.030
q값 0.05 기준에서는 A와 C가 후보입니다. B는 p값만 보면 0.05보다 작지만, 다중검정 보정 뒤 q값이 0.200이므로 FDR 5% 기준에서는 후보로 보기 어렵습니다. 또한 A와 C 중에서도 log2FC의 크기와 생물학적 기능을 함께 봐야 합니다.
이 장의 핵심은 단순합니다. 유전자 하나를 보는 통계와 유전자 2만 개를 보는 통계는 다르게 읽어야 합니다.
보강 학습: Benjamini-Hochberg FDR
왜 필요한가: 유전자 수천~수만 개를 동시에 검사할 때 우연한 작은 p-value를 조절하기 위해 필요합니다.
공식 읽기: p(i) ≤ (i/m)q. p(i)는 작은 순서로 정렬한 i번째 p-value, m은 전체 검정 수, q는 목표 FDR입니다.
숫자 예시: p=[0.001,0.01,0.03,0.20], m=4, q=0.05이면 기준값은 0.0125,0.025,0.0375,0.05이고 세 번째까지 통과합니다.
생물정보학에서 쓰이는 장면: 차등발현, GWAS, pathway 분석에서 FDR 보정 결과를 읽을 때 필수입니다.
흔한 오해와 주의점: FDR 5%는 각 유전자가 틀릴 확률 5%라는 뜻이 아니라 발견 집합의 거짓 발견 비율을 관리하려는 기준입니다.
핵심 정리
다중검정은 여러 검정을 동시에 많이 하는 상황입니다. 검정 수가 늘어나면 우연한 거짓 양성도 늘어납니다. 본페로니 보정은 유의수준을 검정 개수로 나누는 엄격한 방법입니다. FDR은 발견한 결과들 안에 거짓 발견이 얼마나 섞이는지 조절하는 관점입니다. 생물정보학에서는 p값뿐 아니라 q값과 FDR을 함께 봐야 합니다.
문제 풀이
다중검정과 FDR
주관식 답안은 Gemini API로 채점합니다. API 키는 이 브라우저에만 저장됩니다.
-
1. [쉬움] 객관식
다중검정의 설명으로 적절한 것은?
-
2. [계산] 객관식
유의수준 0.05로 100개 검정을 하면 기대 거짓 양성 수는?
-
3. [계산] 객관식
유의수준 0.05로 1000개 검정을 하면 기대 거짓 양성 수는?
-
4. [계산] 객관식
유의수준 0.01로 200개 검정을 하면 기대 거짓 양성 수는?
-
5. [계산] 객관식
본페로니 기준에서 유의수준 0.05, 검정 100개이면 보정 기준은?
-
6. [계산] 객관식
본페로니 기준에서 유의수준 0.05, 검정 10개이면 보정 기준은?
-
7. [계산] 객관식
본페로니 기준에서 유의수준 0.01, 검정 100개이면 보정 기준은?
-
8. [계산] 객관식
발견 100개 중 거짓 발견이 5개이면 FDR은?
-
9. [계산] 객관식
발견 80개 중 거짓 발견이 4개이면 FDR은?
-
10. [계산] 객관식
발견 50개 중 거짓 발견이 10개이면 FDR은?
-
11. [보통] 객관식
q값의 설명으로 가장 적절한 것은?
-
12. [쉬움] 객관식
거짓 양성의 설명으로 적절한 것은?
-
13. [계산] 객관식
유의수준 0.05로 20,000개 검정을 하면 기대 거짓 양성 수는?
-
14. [계산] 객관식
본페로니 기준에서 유의수준 0.05, 검정 1000개이면 기준은?
-
15. [계산] 객관식
q값 0.03, FDR 기준 0.05이면 보통 판단은?
-
16. [계산] 객관식
q값 0.08, FDR 기준 0.05이면 보통 판단은?
-
17. [계산] 객관식
검정 500개, 유의수준 0.02이면 기대 거짓 양성 수는?
-
18. [계산] 객관식
발견 200개 중 거짓 발견 20개이면 FDR은?
-
19. [보통] 객관식
본페로니 보정의 특징으로 적절한 것은?
-
20. [쉬움] 객관식
다중검정 보정이 특히 필요한 상황은?
-
21. [계산] 객관식
유의수준 0.01로 1000개 검정을 하면 기대 거짓 양성 수는?
-
22. [계산] 객관식
발견 40개 중 거짓 발견 2개이면 FDR은?
-
23. [보통] 객관식
전장유전체연관분석에서 매우 엄격한 기준이 필요한 이유는?
-
24. [보통] 객관식
다중검정을 무시하면 생길 수 있는 문제는?
-
25. [계산] 객관식
1,200개 검정을 유의수준 0.05로 수행할 때 기대 거짓 양성 수는?
-
26. [계산] 객관식
검정 500개, 전체 유의수준 0.05일 때 본페로니 기준은?
-
27. [계산] 객관식
발견 80개 중 예상 거짓 발견이 4개라면 FDR 근사는?
-
28. [데이터 해석] 객관식
유전자 A의 p값은 0.001, q값은 0.12이다. FDR 5% 기준에서 가장 적절한 판단은?
-
29. [계산] 객관식
20,000개 유전자를 p<0.05로만 보면, 모두 귀무가설이 참일 때 기대 거짓 양성 수는?
-
30. [비교] 객관식
본페로니 보정의 특징으로 가장 적절한 것은?
-
31. [계산] 객관식
검정 100개에서 본페로니 기준이 0.0005라면 원래 유의수준은?
-
32. [데이터 해석] 객관식
q값 0.03의 안전한 해석은?
-
33. [쉬움] 객관식
BH 공식에서
m은? -
34. [보통] 객관식
m=4, q=0.05일 때 세 번째 기준값은?
-
35. [쉬움] 객관식
p(3)=0.03, 기준 0.0375이면?
-
36. [보통] 객관식
FDR의 직관은?
-
37. [어려움] 객관식
FDR 5%의 올바른 해석은?
-
주관식 38. [보통] 주관식 · Gemini 채점
다중검정을 보정해야 하는 이유를 설명하라.
-
주관식 39. [보통] 주관식 · Gemini 채점
본페로니 보정의 장점과 한계를 설명하라.
-
주관식 40. [보통] 주관식 · Gemini 채점
FDR이 무엇을 조절하려는 기준인지 설명하라.
-
주관식 41. [보통] 주관식 · Gemini 채점
RNA-seq이나 GWAS에서 다중검정이 특히 중요한 이유를 설명하라.
-
주관식 42. [심화] 주관식 · Gemini 채점
RNA-seq 결과에서 p값은 작지만 q값은 큰 유전자를 후보에서 제외할 수 있는 이유를 설명하라.
-
주관식 43. [보통] 주관식 · Gemini 채점
p-value
[0.004,0.018,0.021,0.20,0.60], q=0.05일 때 BH 기준값과 통과 범위를 구하라. -
주관식 44. [보통] 주관식 · Gemini 채점
차등발현 분석에서 p-value만 보고 유전자를 고르면 위험한 이유를 설명하라.