챕터 05 선수지식: 유전질환과 GWAS에 들어가기 전 알아야 할 것

35 분 소요

1. 5챕터는 무엇을 하려는 장인가요?

5챕터는 유전적 변이가 질병이나 형질과 어떻게 연결되는지 다룹니다. 여기서 형질이란 키, 혈압, 당뇨 위험, 질병 여부처럼 관찰하거나 측정할 수 있는 특징을 말합니다.

이 장의 핵심 질문은 다음과 같습니다.

수많은 사람의 DNA와 건강 정보를 비교하면, 어떤 유전적 차이가 질병이나 형질과 관련되는지 찾을 수 있을까요?

초반에는 유전질환을 멘델 질환과 다유전자 질환으로 나눕니다. 중반에는 GWAS라는 통계 분석 방법이 등장합니다. 후반에는 맨해튼 플롯, 연관 불균형, 해플로타입, 다유전자 위험 점수, 과잉 표현 분석, 유전자 온톨로지, 초기하 분포 같은 개념이 나옵니다.

이 장은 생물학과 통계가 동시에 나와서 어렵게 느껴질 수 있습니다. 하지만 큰 흐름은 단순합니다.

GWAS 기본 흐름

많은 사람의 유전체를 보고, 각 SNP가 어떤 형질과 관련되는지 하나씩 검사합니다. 그리고 통계적으로 강하게 튀는 위치를 찾아 그 주변 유전자와 생물학적 경로를 해석합니다.

2. 유전질환은 DNA 차이가 질병에 영향을 주는 경우입니다

유전질환은 유전적 변이가 질병 발생에 중요한 영향을 주는 질환입니다. 다만 “유전질환”이라고 해서 항상 부모에게서만 물려받는 것은 아닙니다. 부모에게서 물려받은 변이 때문에 생길 수도 있고, 수정란이나 초기 발달 과정에서 새로 생긴 변이 때문에 생길 수도 있습니다.

유전질환을 이해할 때 가장 먼저 나누어야 하는 기준은 다음입니다.

구분	쉬운 설명	예시적 감각
멘델 질환	하나의 유전자 변이가 큰 영향을 줍니다.	스위치 하나가 고장 나서 문제가 생기는 느낌입니다.
다유전자 질환	여러 유전자와 환경이 함께 영향을 줍니다.	작은 요인들이 많이 쌓여 위험이 올라가는 느낌입니다.

2장에서 유전자, 변이, 대립유전자, 유전형과 표현형을 다루었습니다. 자세한 설명은 2장 선수지식의 “유전형과 표현형”, “유전적 변이” 부분을 참고하시면 됩니다. 5장에서는 이 개념들을 질병 연구에 적용합니다.

3. 멘델 질환은 “큰 영향을 주는 단일 유전자 변이”로 설명되는 경우가 많습니다

멘델 질환은 한 유전자 또는 한 변이가 질병 발생에 매우 큰 영향을 주는 경우를 말합니다. 물론 현실의 생물학은 항상 깔끔하지 않지만, 입문 단계에서는 “원인이 비교적 단순한 유전질환”이라고 이해하면 됩니다.

예를 들어 어떤 중요한 단백질을 만드는 유전자에 심각한 변이가 생겼다고 해보겠습니다. 그 단백질이 제 기능을 못 하면 특정 질병이 발생할 수 있습니다. 이 경우 가족 안에서 질병이 일정한 패턴으로 나타날 가능성이 큽니다.

여기서 우성, 열성이라는 말도 자주 나옵니다.

우성은 한쪽 복사본에만 변이가 있어도 특징이 드러나는 경우입니다. 열성은 보통 두 복사본 모두에 문제가 있어야 특징이 드러나는 경우입니다. 단, 이것도 현실에서는 예외가 많습니다. 그래서 처음에는 “한 벌만 고장 나도 문제인가, 두 벌 모두 고장 나야 문제인가” 정도로 받아들이면 됩니다.

멘델 질환은 GWAS보다 가족 연구, 특정 유전자 검사, 희귀질환 분석과 더 직접적으로 연결되는 경우가 많습니다.

4. 다유전자 질환은 작은 영향들이 많이 모여 위험을 바꾸는 경우입니다

당뇨병, 고혈압, 심혈관 질환, 치매 같은 많은 흔한 질병은 유전자 하나만으로 설명되지 않습니다. 여러 유전자의 작은 효과, 생활습관, 식습관, 운동, 나이, 환경, 스트레스 등이 함께 작용합니다.

이런 질환을 다유전자 질환이라고 부릅니다. 다유전자 질환에서는 “이 변이가 있으면 반드시 병에 걸린다”라고 말하기 어렵습니다. 대신 “이런 변이 조합을 가진 사람은 평균적으로 위험이 조금 더 높다”처럼 확률적으로 말하는 경우가 많습니다.

예를 들어 키를 생각해보겠습니다. 키는 유전의 영향을 많이 받지만, 유전자 하나로 결정되지 않습니다. 수많은 유전자와 영양 상태, 성장기 건강, 환경이 함께 영향을 줍니다. 혈압이나 제2형 당뇨병 위험도 비슷합니다.

그래서 다유전자 질환 연구에는 많은 사람이 필요합니다. 개인 몇 명만 봐서는 작은 효과를 구분하기 어렵기 때문입니다.

5. GWAS는 유전체 전체를 훑으며 형질과 관련된 SNP를 찾는 방법입니다

GWAS는 Genome-Wide Association Study의 약자입니다. 한국어로는 전장유전체 연관분석이라고 부릅니다.

말이 길지만 구조는 이렇습니다.

유전체 전체에 있는 수많은 SNP를 하나씩 살펴보며, 어떤 SNP가 특정 질병이나 형질과 통계적으로 관련되는지 찾는 방법입니다.

예를 들어 혈압을 연구한다고 해보겠습니다. 연구자는 많은 사람에게서 DNA 정보와 혈압 정보를 모읍니다. 그리고 각 SNP 위치마다 질문합니다.

이 SNP가 A인 사람과 G인 사람의 혈압이 평균적으로 다를까요?
이 차이가 우연히 생겼다고 보기 어려울 만큼 클까요?
표본 수가 충분해서 믿을 만할까요?

이 질문을 유전체 전체의 수많은 SNP에 대해 반복합니다. 그래서 GWAS는 컴퓨터와 통계가 없으면 거의 불가능한 작업입니다.

중요한 점은 GWAS가 “원인”을 바로 증명하지는 않는다는 것입니다. GWAS는 우선 연관성을 찾습니다. 어떤 SNP가 질병과 같이 움직인다는 것은, 그 SNP 자체가 원인일 수도 있고, 근처의 진짜 원인 변이와 함께 유전되기 때문일 수도 있습니다.

6. P-값은 “우연으로 보기 얼마나 어려운가”를 나타내는 지표입니다

GWAS를 이해하려면 P-값의 감각이 필요합니다. 수식까지 깊게 들어갈 필요는 없지만, 뜻은 알아야 합니다.

P-값은 아주 거칠게 말하면 다음 질문에 대한 답입니다.

실제로는 아무 관련이 없는데도, 지금처럼 강한 차이가 우연히 관찰될 가능성은 얼마나 될까요?

P-값이 작다는 것은 “이 정도 차이가 순전히 우연으로 나왔다고 보기 어렵다”는 뜻입니다. 그래서 연구자는 P-값이 작은 SNP를 관심 후보로 봅니다.

하지만 P-값은 오해하기 쉽습니다. P-값이 작다고 해서 그 SNP가 반드시 질병의 원인이라는 뜻은 아닙니다. 또한 P-값이 크다고 해서 생물학적으로 아무 의미가 없다는 뜻도 아닙니다. 표본 수가 작거나 측정 오차가 크면 실제 효과가 있어도 잘 드러나지 않을 수 있습니다.

P-값에 영향을 주는 요소는 크게 세 가지입니다.

요소	쉬운 설명	P-값에 미치는 영향
효과 크기	SNP가 형질을 얼마나 크게 바꾸는지입니다.	효과가 클수록 P-값이 작아지기 쉽습니다.
측정 오차	데이터가 얼마나 흔들리는지입니다.	오차가 클수록 P-값이 커지기 쉽습니다.
표본 수	연구에 참여한 사람이 몇 명인지입니다.	표본이 많을수록 작은 효과도 잡기 쉬워집니다.

7. 맨해튼 플롯은 GWAS 결과를 도시의 빌딩처럼 보여주는 그림입니다

GWAS는 수많은 SNP를 검사합니다. 그래서 결과를 표로만 보면 거의 읽을 수 없습니다. 이때 자주 쓰는 시각화가 맨해튼 플롯입니다.

맨해튼 플롯은 X축에 유전체 위치를 놓고, Y축에 통계적 유의성을 놓습니다. Y축 값이 높을수록 더 강한 연관성을 의미합니다. 그러면 특정 위치에서 점들이 빌딩처럼 높게 솟아오를 수 있습니다. 그래서 이름이 맨해튼 플롯입니다.

맨해튼 플롯 개념

읽는 감각은 단순합니다.

점 하나는 보통 SNP 하나입니다.
X축은 염색체를 따라 늘어놓은 위치입니다.
Y축이 높을수록 P-값이 작습니다.
높게 솟은 피크는 관심 후보 영역입니다.

다만 피크가 있다고 해서 곧바로 “여기가 원인 유전자다”라고 말하면 안 됩니다. 그 주변 유전자, LD 구조, 기능적 근거, 다른 연구에서의 재현성 등을 함께 확인해야 합니다.

8. 다중 검정 문제는 “너무 많이 검사하면 우연한 당첨도 생긴다”는 문제입니다

GWAS에서는 SNP 하나만 검사하지 않습니다. 수십만 개에서 수백만 개의 SNP를 검사할 수 있습니다. 이렇게 많이 검사하면, 실제로 아무 관련이 없어도 우연히 P-값이 작게 나오는 SNP가 생길 수 있습니다.

복권을 한 장만 사면 당첨되기 어렵습니다. 하지만 수백만 장을 사면 낮은 확률의 당첨도 누군가는 경험할 수 있습니다. GWAS에서도 비슷합니다. 수많은 SNP를 검사하면 우연히 튀는 결과가 생깁니다.

그래서 GWAS에서는 보통 더 엄격한 기준을 사용합니다. 단순히 P < 0.05만으로는 부족합니다. 유전체 전체를 대상으로 엄청나게 많이 검사했기 때문에, 우연한 발견을 줄이기 위한 보정이 필요합니다.

이 감각은 후반의 ORA 분석에서도 다시 등장합니다. 생명정보학에서는 많은 유전자, 많은 경로, 많은 변이를 동시에 검사하는 경우가 많기 때문에 다중 검정 문제를 늘 조심해야 합니다.

9. 연관 불균형은 가까운 SNP들이 함께 움직이는 현상입니다

연관 불균형(Linkage Disequilibrium, LD)은 가까운 유전변이들이 서로 독립적으로 움직이지 않고 함께 유전되는 경향을 말합니다.

DNA는 아주 긴 실처럼 이어져 있습니다. 이 실 위에서 서로 가까운 위치에 있는 변이들은 세대가 지나도 함께 전달될 가능성이 높습니다. 반대로 멀리 떨어진 변이들은 재조합 과정에서 서로 분리될 가능성이 더 큽니다.

연관 불균형과 해플로타입

이것은 GWAS 해석에서 매우 중요합니다. 어떤 SNP가 질병과 강하게 연관되어 보인다고 해도, 그 SNP 자체가 원인이라고 단정할 수 없습니다. 실제 원인은 근처의 다른 변이인데, 두 변이가 항상 같이 유전되기 때문에 대표 SNP가 신호를 잡았을 수 있습니다.

그래서 GWAS 결과는 보통 “이 SNP 하나가 원인이다”가 아니라 “이 주변 영역에 관련 변이가 있을 가능성이 있다”로 해석하는 것이 안전합니다.

10. 해플로타입은 함께 유전되는 변이 묶음입니다

해플로타입(Haplotype)은 한 염색체 위에서 함께 유전되는 변이 조합을 말합니다.

예를 들어 가까운 위치에 SNP 세 개가 있다고 해보겠습니다.

사람 A의 한쪽 염색체: A - G - T
사람 B의 한쪽 염색체: A - G - T
사람 C의 한쪽 염색체: C - A - C

A-G-T가 자주 함께 나타난다면, 이 조합을 하나의 해플로타입으로 볼 수 있습니다. 해플로타입은 단일 SNP보다 더 많은 정보를 담을 수 있습니다.

태그 SNP라는 개념도 여기서 나옵니다. 가까운 SNP들이 함께 움직인다면, 모든 SNP를 다 검사하지 않아도 대표 SNP 하나만 검사해서 주변 조합을 어느 정도 추정할 수 있습니다. 이 대표 SNP가 태그 SNP입니다.

11. PRS는 여러 변이의 작은 효과를 합친 위험 점수입니다

PRS는 Polygenic Risk Score, 즉 다유전자 위험 점수입니다. 여러 유전변이가 질병 위험에 조금씩 영향을 준다고 할 때, 그 효과들을 합쳐 한 사람의 유전적 위험도를 숫자로 나타내는 방법입니다.

아주 단순화하면 다음과 같습니다.

PRS = 위험 변이 1의 효과 + 위험 변이 2의 효과 + 위험 변이 3의 효과 + ...

물론 실제 계산은 훨씬 복잡합니다. 각 변이마다 영향력이 다르기 때문에 가중치를 곱하고, 인구집단 구조나 통계적 보정도 고려해야 합니다.

PRS를 해석할 때 가장 중요한 점은 이것입니다.

PRS는 운명 판정표가 아닙니다. 위험 경향을 나타내는 통계적 점수입니다.

PRS가 높다고 반드시 질병에 걸리는 것은 아닙니다. PRS가 낮다고 절대 안전한 것도 아닙니다. 환경, 생활습관, 나이, 성별, 의료 접근성 등 많은 요인이 함께 작용합니다. 또한 PRS는 어떤 인구집단에서 학습되었는지에 따라 다른 집단에 적용할 때 정확도가 떨어질 수 있습니다.

12. ORA는 “관심 유전자들이 특정 기능에 몰려 있는지” 보는 분석입니다

GWAS를 하면 여러 후보 유전자가 나올 수 있습니다. 그런데 유전자 이름만 길게 나열하면 생물학적 의미를 파악하기 어렵습니다. 그래서 연구자는 이런 질문을 던집니다.

이 후보 유전자들이 특정 생물학적 기능이나 경로에 유난히 많이 모여 있을까요?

이때 사용하는 방법 중 하나가 ORA(Over-Representation Analysis), 즉 과잉 표현 분석입니다.

예를 들어 전체 유전자 중 면역 반응 관련 유전자가 5%라고 해보겠습니다. 그런데 GWAS에서 나온 관심 유전자 목록을 보니 그중 30%가 면역 반응 관련 유전자였습니다. 그러면 “이 질병은 면역 반응 경로와 관련이 있을지도 모른다”고 생각할 수 있습니다.

물론 이것도 통계적으로 검정해야 합니다. 우연히 그렇게 보였을 수 있기 때문입니다.

13. Gene Ontology와 Pathway는 유전자에 의미를 붙여둔 사전입니다

Gene Ontology, 줄여서 GO는 유전자의 기능을 체계적으로 정리한 용어 체계입니다. 쉽게 말하면 “유전자 기능 사전”입니다.

GO는 보통 세 방향으로 유전자를 설명합니다.

GO 영역	쉬운 의미	예시적 질문
Molecular Function	분자 수준에서 무슨 일을 하나요?	이 단백질은 무엇에 결합하나요?
Cellular Component	세포 어디에서 작동하나요?	핵, 세포막, 미토콘드리아 중 어디인가요?
Biological Process	어떤 큰 과정에 참여하나요?	면역 반응, 세포분열, DNA 복구에 관여하나요?

Pathway 데이터베이스는 유전자와 단백질이 어떤 생물학적 경로 안에서 함께 작동하는지 정리한 자료입니다. KEGG, Reactome, WikiPathways 같은 데이터베이스가 여기에 해당합니다.

GWAS 결과를 해석할 때 GO나 Pathway를 쓰면, 단순한 유전자 목록을 넘어 “이 질병은 어떤 생물학적 과정과 관련되어 보이는가”를 파악할 수 있습니다.

14. 초기하 분포는 “우연히 이렇게 많이 겹칠 수 있나요?”를 묻는 계산입니다

초기하 분포(Hypergeometric Distribution)는 이름이 어렵지만, 비유는 단순합니다.

주머니에 공이 100개 들어 있습니다. 그중 빨간 공이 10개입니다. 눈을 감고 공 20개를 뽑았는데, 빨간 공이 8개나 나왔습니다. 이게 우연일까요? 아니면 빨간 공이 특별히 많이 뽑힌 것일까요?

ORA에서도 같은 질문을 합니다.

전체 유전자 집합이 있습니다.
그중 특정 경로에 속한 유전자들이 있습니다.
GWAS에서 관심 유전자 목록이 나왔습니다.
관심 유전자 목록 안에 특정 경로 유전자가 많이 들어 있습니다.

그럼 묻습니다.

이 정도 겹침이 우연히 나올 가능성이 얼마나 될까요?

이 가능성을 계산하는 데 초기하 분포가 쓰입니다. 입문 단계에서는 공식을 외우는 것보다, “전체 중 일부를 뽑았을 때 특정 종류가 과하게 많이 섞였는지 판단하는 방법”이라고 이해하면 충분합니다.

본편 진입 전 보강: GWAS 수식은 작은 계산부터 잡으면 됩니다

5챕터 본편에는 P-값, T 통계량, -log10(P), Bonferroni 보정, PRS, 초기하 분포 같은 계산 개념이 나옵니다. 수식을 외우기보다, 작은 숫자로 직접 계산해보는 것이 중요합니다.

GWAS 계산 도구 모음

T 통계량

GWAS에서 어떤 SNP의 효과를 추정할 때, 효과 크기가 추정의 불확실성에 비해 충분히 큰지 봅니다. 단순화하면 다음과 같습니다.

T = 기울기 / 표준오차

예를 들어 기울기가 0.8이고 표준오차가 0.2라면 다음처럼 계산합니다.

T = 0.8 / 0.2 = 4

효과 추정값이 오차에 비해 클수록 T값은 커집니다.

-log10(P)

맨해튼 플롯의 y축에서는 P-값을 그대로 쓰지 않고 -log10(P)로 바꿔 그리는 경우가 많습니다. P-값이 매우 작기 때문입니다.

P = 10^-3이면 -log10(P) = 3
P = 10^-5이면 -log10(P) = 5
P = 10^-8이면 -log10(P) = 8

즉, 맨해튼 플롯에서 위로 높게 솟은 점은 P-값이 작고, 우연으로 보기 어려운 신호일 가능성이 큽니다. 본편에서 5 × 10^-8이 나오면, 10^-8 근처이므로 y축 값이 대략 7~8 근처라고 이해하면 됩니다.

Bonferroni 보정

검정을 많이 하면 우연히 하나쯤 당첨되는 일이 생깁니다. Bonferroni 보정은 전체 기준을 검사 개수로 나눠 각 검정 기준을 더 엄격하게 만듭니다.

전체 유의수준 = 0.05
검정 개수 = 500개
보정 기준 = 0.05 / 500 = 0.0001

이 계산은 경로 분석이나 다중 검정 설명에서 자주 등장합니다.

PRS 계산

PRS는 여러 변이의 작은 효과를 더한 점수입니다. 아주 단순한 예를 보면 다음과 같습니다.

SNP	효과 크기	위험 대립유전자 개수	기여도
SNP1	0.2	2개	0.2 × 2 = 0.4
SNP2	-0.1	1개	-0.1 × 1 = -0.1
SNP3	0.05	0개	0.05 × 0 = 0

PRS = 0.4 + (-0.1) + 0 = 0.3

실제 PRS는 훨씬 많은 SNP를 사용하고 보정도 들어갑니다. 하지만 본편을 읽을 때는 “각 변이의 효과 × 가진 개수”를 합친다는 감각이 핵심입니다.

ORA와 초기하 분포의 변수

ORA는 “내 관심 유전자들이 특정 경로에 우연보다 많이 몰렸는가?”를 묻습니다. 초기하 분포 공식 자체보다 먼저 각 기호가 무엇을 뜻하는지 알아야 합니다.

N = 전체 유전자 수
M = 특정 경로에 속한 유전자 수
n = 내가 뽑은 관심 유전자 수
k = 관심 유전자 중 특정 경로와 겹친 수

예를 들어 전체 유전자 20,000개 중 면역 경로 유전자가 200개이고, 내 관심 유전자는 50개이며, 그중 12개가 면역 경로에 속한다면 다음과 같습니다.

N = 20,000
M = 200
n = 50
k = 12

이 변수 매칭을 할 수 있으면, 본편의 초기하 분포 공식이 훨씬 덜 낯설게 보입니다.

15. 5챕터 진입 전 핵심 정리

선수지식	아주 쉬운 설명	5챕터에서 필요한 이유
멘델 질환	하나의 유전자 변이가 큰 영향을 주는 질환입니다.	유전질환의 기본 유형을 이해해야 합니다.
다유전자 질환	여러 유전자와 환경이 함께 영향을 주는 질환입니다.	GWAS가 필요한 이유입니다.
GWAS	유전체 전체에서 형질과 관련된 SNP를 찾는 분석입니다.	5장의 중심 개념입니다.
P-값	우연으로 보기 얼마나 어려운지를 나타냅니다.	연관성 판단에 사용됩니다.
맨해튼 플롯	GWAS 결과를 유전체 위치별로 보여주는 그림입니다.	어떤 영역이 튀는지 한눈에 봅니다.
연관 불균형	가까운 변이들이 함께 유전되는 현상입니다.	GWAS 신호 해석에 꼭 필요합니다.
PRS	여러 변이의 작은 효과를 합친 위험 점수입니다.	다유전자 질환 위험 예측에 사용됩니다.
ORA	관심 유전자들이 특정 기능에 몰려 있는지 봅니다.	GWAS 결과의 생물학적 의미를 해석합니다.
T 통계량	효과 크기를 표준오차로 나눈 값입니다.	GWAS 연관성 검정의 수식 감각을 잡게 해줍니다.
-log10(P)	매우 작은 P-값을 보기 쉽게 바꾼 값입니다.	맨해튼 플롯의 y축을 해석하게 해줍니다.
Bonferroni 보정	전체 기준을 검정 개수로 나누는 다중 검정 보정입니다.	많은 SNP나 경로를 동시에 검사할 때 기준이 엄격해지는 이유를 이해하게 해줍니다.
초기하 분포 변수	N, M, n, k로 겹침이 우연인지 보는 틀입니다.	ORA 수식의 의미를 읽게 해줍니다.