부록 D15: 다중검정과 FDR

4 분 소요

이 장에서 배울 것

이번 장에서는 다중검정(multiple testing)과 거짓발견율(false discovery rate, FDR)을 배웁니다. 가설검정을 한 번만 하면 p값 0.05 기준이 그럭저럭 직관적입니다. 하지만 생물정보학에서는 유전자 2만 개, 변이 수백만 개를 동시에 검사합니다. 이때는 우연히 작게 나온 p값이 많이 생깁니다.

핵심 용어를 먼저 정리하겠습니다.

다중검정(multiple testing): 여러 가설검정을 동시에 많이 하는 상황입니다.
거짓 양성(false positive): 실제로는 효과가 없는데 효과가 있다고 나온 결과입니다.
거짓 음성(false negative): 실제로는 효과가 있는데 놓친 결과입니다.
본페로니 보정(Bonferroni correction): 유의수준을 검정 개수로 나누어 매우 엄격하게 조정하는 방법입니다.
거짓발견율(false discovery rate, FDR): 발견했다고 부른 결과들 중 거짓 발견이 차지하는 비율을 조절하려는 기준입니다. 앞으로는 영어 약어인 FDR이라고도 부르겠습니다.
q값(q-value): FDR 관점에서 보정된 p값처럼 사용하는 값입니다.
전장유전체 유의수준(genome-wide significance): 유전체 전체를 많이 검사할 때 쓰는 매우 엄격한 유의성 기준입니다.

다중검정과 거짓 발견

가장 쉬운 비유: 복권을 많이 사면 당첨처럼 보이는 일이 생긴다

복권 한 장을 샀을 때 당첨될 확률은 낮습니다. 하지만 복권을 아주 많이 사면 그중 몇 장은 우연히 당첨될 수 있습니다. 검정도 비슷합니다. 유전자 하나만 검사하면 우연히 p값이 작게 나올 가능성이 작아 보입니다. 하지만 유전자 2만 개를 검사하면 우연히 p값이 작게 나오는 유전자가 꽤 생길 수 있습니다.

그래서 다중검정에서는 “p값이 0.05보다 작다”만으로 충분하지 않습니다. 검정을 몇 번 했는지를 함께 봐야 합니다.

왜 여러 번 검정하면 위험한가

유의수준 0.05는 귀무가설이 맞아도 약 5%는 거짓 양성이 나올 수 있다는 뜻입니다. 만약 실제로 아무 유전자도 차이가 없는데 100개 유전자를 검사한다면, 기대되는 거짓 양성 수는 다음과 같습니다.

100 × 0.05 = 5

즉 아무 차이가 없어도 약 5개는 우연히 유의해 보일 수 있습니다. 20,000개 유전자를 검사하면 다음처럼 됩니다.

20,000 × 0.05 = 1,000

이래서 생물정보학에서 다중검정 보정은 선택이 아니라 필수입니다.

본페로니 보정

본페로니 보정은 단순하고 엄격합니다.

보정된 기준 = 원래 유의수준 / 검정 개수

예를 들어 원래 유의수준이 0.05이고 검정이 100개라면 기준은 다음과 같습니다.

0.05 / 100 = 0.0005

이제 p값이 0.0005보다 작아야 유의하다고 봅니다. 매우 보수적이어서 거짓 양성은 줄이지만, 진짜 신호도 놓칠 수 있습니다.

FDR의 직관

FDR은 “발견했다고 부른 것들 중 거짓이 얼마나 섞여 있는가”를 조절하려는 생각입니다. 예를 들어 어떤 분석에서 유의하다고 부른 유전자가 100개이고, 그중 약 5개 정도가 거짓일 수 있도록 관리한다면 FDR은 약 5%입니다.

FDR ≈ 거짓 발견 수 / 발견 수

FDR은 본페로니보다 덜 엄격한 경우가 많아서, RNA-seq처럼 유전자 수가 많은 분석에서 자주 사용됩니다.

q값

q값은 FDR 관점에서 해석하는 보정된 값입니다. 입문 단계에서는 이렇게 생각하면 됩니다.

p값: 한 검정의 원래 신호
q값: 다중검정을 고려한 뒤의 신호

q값이 0.05보다 작으면 보통 FDR 5% 기준에서 유의하다고 말합니다.

계산 감각

이 장에서 자주 쓰는 계산은 다음과 같습니다.

기대 거짓 양성 수 = 검정 개수 × 유의수준
본페로니 기준 = 유의수준 / 검정 개수
FDR 근사 = 거짓 발견 수 / 발견 수

예를 들어 1,000개 검정을 0.05 기준으로 하면 기대 거짓 양성 수는 50개입니다. 200개 검정에서 본페로니 기준은 0.05/200=0.00025입니다. 발견 80개 중 거짓 발견이 4개라면 FDR은 4/80=0.05입니다.

생물정보학에서 왜 중요한가

RNA-seq 차등 발현 분석은 수천~수만 개 유전자를 동시에 검사합니다. 전장유전체연관분석(GWAS, 수많은 유전 변이와 질병의 관련성을 찾는 분석)은 수십만~수백만 개 변이를 검사합니다. 이런 상황에서 다중검정을 보정하지 않으면 우연히 나온 결과를 대단한 발견처럼 착각할 수 있습니다.

보강: FWER와 FDR을 구분하기

다중검정에서 중요한 기준은 크게 두 가지입니다. 하나는 FWER이고, 다른 하나는 FDR입니다. FWER는 “발견 목록 전체에서 거짓 양성이 하나라도 나올 확률”을 강하게 줄이려는 관점입니다. 본페로니 보정은 이 관점에 가깝습니다. 반면 FDR은 “발견했다고 부른 것들 중 거짓 발견의 비율”을 조절하려는 관점입니다.

FWER: 거짓 발견이 하나라도 있으면 큰 문제라고 보는 엄격한 기준
FDR : 발견 목록 안에 거짓이 어느 정도 섞일 수 있음을 비율로 관리하는 기준

유전자 수만 개를 동시에 보는 RNA-seq에서는 진짜 신호도 많이 있을 수 있습니다. 이때 본페로니만 쓰면 너무 엄격해서 많은 신호를 놓칠 수 있습니다. 그래서 RNA-seq 결과표에서는 보통 p값보다 q값 또는 adjusted p-value를 더 중요하게 봅니다.

Benjamini-Hochberg 절차의 직관

FDR 보정에서 자주 쓰이는 Benjamini-Hochberg 절차는 p값을 작은 순서로 정렬한 뒤, 순위에 따라 허용 기준을 조금씩 넓혀 가며 판단합니다. 입문 단계에서는 모든 공식을 외우기보다 다음 직관을 잡으면 됩니다.

p값이 작을수록 강한 신호다.
하지만 몇 번째로 작은 p값인지도 중요하다.
검정 개수가 많을수록 같은 p값도 더 조심해서 봐야 한다.

예를 들어 유전자 5개를 검사했고 FDR 기준을 0.05로 잡았다고 합시다. p값이 작게 정렬되어 있을 때 앞쪽 p값은 더 엄격한 기준을 통과해야 합니다. 많은 유전자를 검사할수록 우연히 작은 p값이 나올 수 있기 때문입니다.

생물정보학 결과표를 읽는 법

차등 발현 분석 결과표가 다음과 같다고 합시다.

유전자   log2FC   p값      q값
A       2.1      0.0001   0.004
B       0.1      0.0100   0.200
C      -1.5      0.0030   0.030

q값 0.05 기준에서는 A와 C가 후보입니다. B는 p값만 보면 0.05보다 작지만, 다중검정 보정 뒤 q값이 0.200이므로 FDR 5% 기준에서는 후보로 보기 어렵습니다. 또한 A와 C 중에서도 log2FC의 크기와 생물학적 기능을 함께 봐야 합니다.

이 장의 핵심은 단순합니다. 유전자 하나를 보는 통계와 유전자 2만 개를 보는 통계는 다르게 읽어야 합니다.

보강 학습: Benjamini-Hochberg FDR

왜 필요한가: 유전자 수천~수만 개를 동시에 검사할 때 우연한 작은 p-value를 조절하기 위해 필요합니다.

공식 읽기: p(i) ≤ (i/m)q. p(i)는 작은 순서로 정렬한 i번째 p-value, m은 전체 검정 수, q는 목표 FDR입니다.

숫자 예시: p=[0.001,0.01,0.03,0.20], m=4, q=0.05이면 기준값은 0.0125,0.025,0.0375,0.05이고 세 번째까지 통과합니다.

생물정보학에서 쓰이는 장면: 차등발현, GWAS, pathway 분석에서 FDR 보정 결과를 읽을 때 필수입니다.

흔한 오해와 주의점: FDR 5%는 각 유전자가 틀릴 확률 5%라는 뜻이 아니라 발견 집합의 거짓 발견 비율을 관리하려는 기준입니다.

핵심 정리

다중검정은 여러 검정을 동시에 많이 하는 상황입니다. 검정 수가 늘어나면 우연한 거짓 양성도 늘어납니다. 본페로니 보정은 유의수준을 검정 개수로 나누는 엄격한 방법입니다. FDR은 발견한 결과들 안에 거짓 발견이 얼마나 섞이는지 조절하는 관점입니다. 생물정보학에서는 p값뿐 아니라 q값과 FDR을 함께 봐야 합니다.

Gemini AI 채점

주관식 답안은 Gemini API로 채점합니다. API 키는 이 브라우저에만 저장됩니다.

API KEY 미등록

1. [쉬움] 객관식

다중검정의 설명으로 적절한 것은?

선택지 여러 가설검정을 동시에 많이 하는 상황이다. 검정을 전혀 하지 않는 상황이다. 표본 하나만 보는 상황이다. 평균 하나만 구하는 상황이다.
2. [계산] 객관식

유의수준 0.05로 100개 검정을 하면 기대 거짓 양성 수는?

선택지 0.05 5 20 100
3. [계산] 객관식

유의수준 0.05로 1000개 검정을 하면 기대 거짓 양성 수는?

선택지 5 100 50 500
4. [계산] 객관식

유의수준 0.01로 200개 검정을 하면 기대 거짓 양성 수는?

선택지 0.01 20 200 2
5. [계산] 객관식

본페로니 기준에서 유의수준 0.05, 검정 100개이면 보정 기준은?

선택지 0.0005 0.005 0.05 5
6. [계산] 객관식

본페로니 기준에서 유의수준 0.05, 검정 10개이면 보정 기준은?

선택지 0.5 0.005 0.05 5
7. [계산] 객관식

본페로니 기준에서 유의수준 0.01, 검정 100개이면 보정 기준은?

선택지 0.001 0.01 0.0001 1
8. [계산] 객관식

발견 100개 중 거짓 발견이 5개이면 FDR은?

선택지 0.5 5 20 0.05
9. [계산] 객관식

발견 80개 중 거짓 발견이 4개이면 FDR은?

선택지 0.05 0.2 4 0.5
10. [계산] 객관식

발견 50개 중 거짓 발견이 10개이면 FDR은?

선택지 0.05 0.2 5 10
11. [보통] 객관식

q값의 설명으로 가장 적절한 것은?

선택지 항상 원래 p값보다 작은 값이다. 표본평균의 다른 이름이다. 다중검정을 고려한 뒤 FDR 관점에서 해석하는 값이다. 검정 개수와 무관한 값이다.
12. [쉬움] 객관식

거짓 양성의 설명으로 적절한 것은?

선택지 실제로 효과가 있는데 놓친 결과이다. 검정 자체를 하지 않은 결과이다. 항상 참인 발견이다. 실제로 효과가 없는데 효과가 있다고 나온 결과이다.
13. [계산] 객관식

유의수준 0.05로 20,000개 검정을 하면 기대 거짓 양성 수는?

선택지 1000 100 500 20000
14. [계산] 객관식

본페로니 기준에서 유의수준 0.05, 검정 1000개이면 기준은?

선택지 0.0005 0.00005 0.005 0.05
15. [계산] 객관식

q값 0.03, FDR 기준 0.05이면 보통 판단은?

선택지 유의하지 않다. 판단 기준보다 크다. 유의하다고 볼 수 있다. 검정 개수가 3개라는 뜻이다.
16. [계산] 객관식

q값 0.08, FDR 기준 0.05이면 보통 판단은?

선택지 유의하다고 본다. q값을 평균으로 바꾼다. FDR이 8개라는 뜻이다. 유의하다고 보기 어렵다.
17. [계산] 객관식

검정 500개, 유의수준 0.02이면 기대 거짓 양성 수는?

선택지 10 5 20 0.04
18. [계산] 객관식

발견 200개 중 거짓 발견 20개이면 FDR은?

선택지 0.01 0.1 10 20
19. [보통] 객관식

본페로니 보정의 특징으로 적절한 것은?

선택지 항상 거짓 음성을 없앤다. 검정 개수가 많아질수록 기준이 느슨해진다. 거짓 양성을 줄이지만 너무 엄격해질 수 있다. p값을 사용하지 않는다.
20. [쉬움] 객관식

다중검정 보정이 특히 필요한 상황은?

선택지 숫자 하나의 평균만 구하는 상황 검정을 전혀 하지 않는 상황 표본 파일 이름만 바꾸는 상황 유전자 수천 개를 동시에 검사하는 RNA-seq 분석
21. [계산] 객관식

유의수준 0.01로 1000개 검정을 하면 기대 거짓 양성 수는?

선택지 10 1 100 0.01
22. [계산] 객관식

발견 40개 중 거짓 발견 2개이면 FDR은?

선택지 0.2 0.05 2 20
23. [보통] 객관식

전장유전체연관분석에서 매우 엄격한 기준이 필요한 이유는?

선택지 검정을 하나만 하기 때문이다. p값을 쓰지 않기 때문이다. 수많은 변이를 동시에 검사하기 때문이다. 모든 변이가 항상 원인이기 때문이다.
24. [보통] 객관식

다중검정을 무시하면 생길 수 있는 문제는?

선택지 모든 거짓 양성이 사라진다. 표본수가 자동으로 커진다. q값이 항상 0이 된다. 우연히 나온 결과를 중요한 발견처럼 착각할 수 있다.
25. [계산] 객관식

1,200개 검정을 유의수준 0.05로 수행할 때 기대 거짓 양성 수는?

선택지 60 24 6 0.05
26. [계산] 객관식

검정 500개, 전체 유의수준 0.05일 때 본페로니 기준은?

선택지 0.001 0.0001 0.01 0.05
27. [계산] 객관식

발견 80개 중 예상 거짓 발견이 4개라면 FDR 근사는?

선택지 0.5 0.2 0.05 0.04
28. [데이터 해석] 객관식

유전자 A의 p값은 0.001, q값은 0.12이다. FDR 5% 기준에서 가장 적절한 판단은?

선택지 p값이 작으므로 무조건 후보다 q값은 무시한다 반드시 원인 유전자다 FDR 5% 기준에서는 유의하다고 보기 어렵다
29. [계산] 객관식

20,000개 유전자를 p<0.05로만 보면, 모두 귀무가설이 참일 때 기대 거짓 양성 수는?

선택지 1,000 400 100 20
30. [비교] 객관식

본페로니 보정의 특징으로 가장 적절한 것은?

선택지 항상 FDR보다 덜 엄격하다 거짓 양성을 줄이지만 진짜 신호도 놓칠 수 있다 검정 개수를 고려하지 않는다 q값만 계산한다
31. [계산] 객관식

검정 100개에서 본페로니 기준이 0.0005라면 원래 유의수준은?

선택지 0.0005 0.005 0.05 0.5
32. [데이터 해석] 객관식

q값 0.03의 안전한 해석은?

선택지 해당 가설이 참일 확률이 97%다 p값이 반드시 0.03보다 크다 효과크기가 반드시 크다 FDR 기준으로 발견 목록의 거짓 비율을 조절한 뒤에도 비교적 강한 신호다
33. [쉬움] 객관식

BH 공식에서 m은?

선택지 샘플 이름 염기 길이 전체 검정 수 항상 1
34. [보통] 객관식

m=4, q=0.05일 때 세 번째 기준값은?

선택지 0.0125 0.025 0.05 0.0375
35. [쉬움] 객관식

p(3)=0.03, 기준 0.0375이면?

선택지 통과한다. 통과하지 않는다. 비교 불가다. q-value가 1이다.
36. [보통] 객관식

FDR의 직관은?

선택지 발현량 평균 발견 집합 중 거짓 발견 비율 관리 모든 p-value 제거 거리 metric
37. [어려움] 객관식

FDR 5%의 올바른 해석은?

선택지 각 유전자가 틀릴 확률 정확히 5% 보정 불필요 발견 집합 전체의 거짓 발견 비율을 관리하려는 목표 효과크기 모두 큼
주관식 38. [보통] 주관식 · Gemini 채점

다중검정을 보정해야 하는 이유를 설명하라.
주관식 39. [보통] 주관식 · Gemini 채점

본페로니 보정의 장점과 한계를 설명하라.
주관식 40. [보통] 주관식 · Gemini 채점

FDR이 무엇을 조절하려는 기준인지 설명하라.
주관식 41. [보통] 주관식 · Gemini 채점

RNA-seq이나 GWAS에서 다중검정이 특히 중요한 이유를 설명하라.
주관식 42. [심화] 주관식 · Gemini 채점

RNA-seq 결과에서 p값은 작지만 q값은 큰 유전자를 후보에서 제외할 수 있는 이유를 설명하라.
주관식 43. [보통] 주관식 · Gemini 채점

p-value [0.004,0.018,0.021,0.20,0.60], q=0.05일 때 BH 기준값과 통과 범위를 구하라.
주관식 44. [보통] 주관식 · Gemini 채점

차등발현 분석에서 p-value만 보고 유전자를 고르면 위험한 이유를 설명하라.