부록 A13: 집단유전학

6 분 소요

이 장에서 배울 것

앞 장에서는 진화가 “개체 하나의 변신”이 아니라 “세대를 거치며 집단 안 유전적 구성이 변하는 과정”이라고 배웠습니다. 이번 장에서는 그 변화를 더 숫자에 가깝게 보는 법을 배웁니다. 이 분야를 집단유전학(population genetics)이라고 합니다.

집단유전학은 어렵게 들리지만 출발점은 단순합니다. 한 사람만 보지 않고, 많은 사람이나 많은 생물 개체가 모인 집단(population) 안에서 어떤 유전적 버전이 얼마나 흔한지 보는 학문입니다.

먼저 이번 장의 핵심 용어를 천천히 정리하겠습니다.

대립유전자 빈도(allele frequency): 집단 안에서 특정 대립유전자가 얼마나 자주 나타나는지를 뜻합니다.
하디-바인베르크 평형(Hardy-Weinberg equilibrium): 아무 힘도 작용하지 않는 매우 단순한 가상 조건에서 유전자형 비율이 어떻게 유지될지 보여 주는 기준선입니다.
연관불평형(linkage disequilibrium): 가까운 DNA 위치의 변이들이 우연보다 더 자주 함께 나타나는 현상입니다.
일배체형(haplotype): 한 염색체 구간에서 함께 묶여 전달되는 변이들의 조합입니다.
집단구조(population structure): 한 큰 집단 안에 조상 배경, 지역, 역사 때문에 생긴 하위 집단 차이가 존재하는 상태입니다.
선택 신호(selection signal): 어떤 변이가 자연선택의 영향을 받았을 가능성을 보여 주는 유전체상의 흔적입니다.

집단유전학의 기본

가장 쉬운 비유: 반 전체의 카드 색깔 비율 보기

한 반 학생들이 각각 카드 두 장을 가지고 있다고 합시다. 어떤 학생은 파란 카드 두 장, 어떤 학생은 파란 카드 한 장과 주황 카드 한 장, 어떤 학생은 주황 카드 두 장을 가지고 있습니다. 학생 한 명만 보면 “이 학생은 어떤 카드를 가졌구나” 정도만 알 수 있습니다.

하지만 반 전체를 보면 다른 질문을 할 수 있습니다.

파란 카드가 전체 카드 중 몇 퍼센트인가요? 주황 카드는 몇 퍼센트인가요? 몇 세대 뒤에도 같은 비율이 유지될까요? 어떤 이유로 주황 카드가 갑자기 늘어났나요?

집단유전학은 바로 이런 식으로 생각합니다. 개체 하나의 유전자형만 보는 것이 아니라, 집단 전체에서 대립유전자 비율이 어떻게 분포하고 어떻게 변하는지 봅니다.

대립유전자 빈도: 집단 안에서 얼마나 흔한가

대립유전자 빈도는 집단 안에서 어떤 대립유전자가 차지하는 비율입니다. 예를 들어 어떤 유전자 위치에 A와 a라는 두 대립유전자가 있다고 합시다. 사람은 그 위치에서 어머니에게 하나, 아버지에게 하나를 받습니다. 100명이 있다면 그 위치의 대립유전자는 총 200개입니다.

그 200개 중 A가 140개이고 a가 60개라면, A의 빈도는 70%, a의 빈도는 30%입니다. 이 비율은 집단의 유전적 특징을 요약하는 가장 기본적인 숫자입니다.

진화도 이 관점으로 볼 수 있습니다. 시간이 지나면서 A가 70%에서 90%가 되거나, a가 30%에서 5%로 줄어들면 집단 안 유전적 구성이 변한 것입니다.

하디-바인베르크 평형: 아무 일도 없을 때의 기준선

하디-바인베르크 평형은 현실을 완벽하게 설명하는 법칙이라기보다, 비교를 위한 기준선입니다. 마치 물리학에서 “마찰이 없다고 가정하면”이라고 말하는 것과 비슷합니다.

이 평형은 매우 단순한 가정을 둡니다. 집단이 충분히 크고, 무작위로 짝을 이루고, 돌연변이와 자연선택과 이주가 없다고 합시다. 그러면 대립유전자 빈도로부터 AA, Aa, aa 같은 유전자형 비율을 예측할 수 있습니다.

중요한 것은 공식 자체보다 사고방식입니다. 현실 데이터가 이 기준선에서 크게 벗어나면, 무언가가 작용했을 가능성을 생각할 수 있습니다. 예를 들어 선택, 집단구조, 가까운 친족끼리의 짝짓기, 표본 문제 등이 원인일 수 있습니다.

연관불평형과 일배체형: 가까운 변이들은 함께 움직일 수 있습니다

앞에서 멘델 유전의 독립의 법칙을 배웠지만, 실제 유전체에서는 모든 위치가 완전히 독립적으로 움직이지 않습니다. DNA 위에서 서로 가까운 위치에 있는 변이들은 한 덩어리처럼 함께 전달될 가능성이 높습니다.

이처럼 두 변이가 우연히 기대되는 것보다 더 자주 함께 나타나면 연관불평형이라고 합니다. 그리고 한 염색체 구간에서 함께 묶여 있는 변이 조합을 일배체형이라고 합니다.

비유하자면 책의 글자가 한 글자씩 독립적으로 복사되는 것이 아니라, 페이지 한 부분이 통째로 복사되는 상황과 비슷합니다. 그래서 어떤 글자들이 함께 따라다닙니다.

이 개념은 전장유전체 연관분석, 즉 GWAS에서 매우 중요합니다. GWAS가 찾은 변이가 직접 원인 변이가 아닐 수도 있습니다. 그 변이가 원인 변이와 가까이 있어서 함께 따라다니는 표지일 수도 있습니다.

집단구조: 섞여 보이지만 완전히 같은 집단이 아닐 수 있습니다

인간 집단은 역사, 지역, 이동, 결혼 패턴 때문에 유전적 배경이 조금씩 다릅니다. 겉으로는 하나의 큰 연구 대상처럼 보여도 실제로는 여러 하위 집단이 섞여 있을 수 있습니다. 이것을 집단구조라고 합니다.

집단구조를 무시하면 생물정보학 분석에서 큰 문제가 생깁니다. 예를 들어 어떤 질병 환자군에는 특정 조상 배경을 가진 사람이 많고, 대조군에는 다른 조상 배경을 가진 사람이 많다고 합시다. 그러면 질병과 직접 관련 없는 변이도 질병과 관련 있는 것처럼 보일 수 있습니다.

이런 오류는 “진짜 생물학적 원인”과 “집단 차이 때문에 생긴 가짜 연관성”을 혼동하게 만듭니다. 그래서 GWAS나 인간 유전체 분석에서는 집단구조 보정이 필수입니다.

선택 신호: 과거의 자연선택이 남긴 흔적

자연선택이 어떤 변이를 빠르게 늘렸다면, 그 주변 유전체에도 흔적이 남을 수 있습니다. 특정 변이가 유난히 높은 빈도를 가지거나, 주변 일배체형이 길게 보존되거나, 집단 사이 빈도 차이가 크게 나타날 수 있습니다. 이런 패턴을 선택 신호라고 부릅니다.

예를 들어 말라리아(모기가 옮기는 기생충 감염병으로 고열과 빈혈을 일으킬 수 있음)가 많은 지역에서는 특정 혈액 관련 변이가 생존에 영향을 줄 수 있습니다. 앞 장에서 언급한 겸상적혈구병 관련 변이는 이런 진화적 맥락에서 자주 설명됩니다. 이미 질병 자체는 앞에서 설명했으므로 여기서는 “감염병 환경이 유전적 변이 빈도에 영향을 줄 수 있다”는 점만 잡으면 됩니다.

생물정보학에서 집단유전학이 필요한 이유

집단유전학은 인간 유전체 연구, 질병 위험도 연구, 진화 연구, 감염병 연구에서 모두 중요합니다.

GWAS에서는 어떤 변이가 질병과 관련 있는지 찾을 때 집단구조와 연관불평형을 고려해야 합니다. 고대 DNA 분석에서는 과거 인구 이동과 혼합을 추정할 수 있습니다. 병원체 유전체 분석에서는 바이러스나 세균 집단이 어떻게 퍼지고 변하는지 볼 수 있습니다.

즉 집단유전학은 “서열을 읽는 기술”을 넘어서, 그 서열이 집단 안에서 어떤 역사와 압력을 받아왔는지 해석하는 도구입니다.

계산 감각: 대립유전자 빈도와 하디-바인베르크 평형

집단유전학의 첫 계산은 “전체 중 몇 개냐”를 세는 일입니다. 사람은 보통 한 유전자 위치마다 대립유전자를 두 개씩 가집니다. 그래서 사람 100명을 보면 그 위치의 대립유전자는 총 200개입니다.

대립유전자 빈도 = 특정 대립유전자 개수 / 전체 대립유전자 개수
p + q = 1

예를 들어 전체 대립유전자 200개 중 A가 120개라면 A의 빈도 p는 120/200 = 0.6입니다. 나머지 a의 빈도 q는 0.4입니다.

하디-바인베르크 평형(Hardy-Weinberg equilibrium)은 이상적인 조건에서 유전자형 비율을 예측하는 기준선입니다.

AA 예상 비율 = p²
Aa 예상 비율 = 2pq
aa 예상 비율 = q²

예를 들어 p = 0.6, q = 0.4라면 AA는 0.36, Aa는 0.48, aa는 0.16으로 예상할 수 있습니다. 이 값은 현실이 반드시 이렇게 된다는 뜻이 아니라, 실제 자료와 비교하는 기준선입니다.

보강 학습: 집단 차이를 모르면 유전체 분석이 흔들립니다

집단유전학의 핵심은 “개체 한 명의 유전형”이 아니라 “집단 안에서 변이가 어떤 비율로 존재하는가”입니다. 같은 변이라도 어떤 집단에서는 흔하고, 어떤 집단에서는 드물 수 있습니다. 이 차이는 질병 연구, 조상 추정, 감염병 추적, 진화 연구에서 모두 중요합니다.

하디-바인베르크 평형은 현실이 완벽히 따라야 하는 규칙이 아니라 기준선입니다. p와 q가 대립유전자 빈도라면 p², 2pq, q²로 유전자형 비율을 예측합니다. 실제 관찰값이 이 기준선에서 크게 벗어나면 자연선택, 근친교배, 집단구조, 표본 오류, 유전형 판독 오류 등을 의심할 수 있습니다. 따라서 계산 자체보다 “왜 기준선과 다른가”를 묻는 태도가 더 중요합니다.

연관불평형은 GWAS 해석에서 특히 중요합니다. 어떤 SNP가 질병과 관련되어 보인다고 해서 그 SNP가 직접 원인이라는 뜻은 아닙니다. 원인 변이와 가까이 있어 함께 유전되는 표지 SNP(tag SNP)일 수 있습니다. 그래서 GWAS 결과를 해석할 때는 “찾은 위치 주변에 어떤 유전자와 조절 영역이 있는가”, “LD 구조가 어떤가”, “기능 실험 근거가 있는가”를 함께 봐야 합니다.

집단구조는 가장 흔한 함정 중 하나입니다. 예를 들어 환자군에 A 지역 출신이 많고 대조군에 B 지역 출신이 많다면, 질병과 무관한 지역별 변이가 질병 관련 변이처럼 보일 수 있습니다. 이것은 유전학 버전의 교란변수(confounder) 문제입니다. 그래서 인간 유전체 연구에서는 PCA, 혼합모형, 조상 배경 보정 같은 방법으로 집단구조를 줄이려 합니다.

선택 신호도 조심해서 해석해야 합니다. 어떤 변이가 한 집단에서 높게 나타난다고 해서 곧바로 “자연선택을 받았다”고 결론 내릴 수는 없습니다. 병목현상, 창시자 효과, 이주, 유전적 부동도 비슷한 패턴을 만들 수 있습니다. 좋은 분석은 여러 지표와 역사적 맥락을 함께 봅니다.

계산생물학자는 집단유전학을 통해 변이를 숫자로만 보지 않고 역사와 맥락 안에서 봅니다. 어떤 변이가 흔한지, 누구에게 흔한지, 주변 변이와 함께 움직이는지, 질병 신호가 진짜인지 가짜인지 판단하는 능력이 여기서 나옵니다.

보강 학습 2: Hardy-Weinberg 평형을 계산 훈련으로 이해하기

집단유전학에서는 allele 빈도와 genotype 빈도를 구분해야 합니다. Hardy-Weinberg 평형은 특정 가정 아래에서 allele 빈도로부터 genotype 빈도를 예측하는 기준 모델입니다. 필요한 이유는 실제 집단이 이 기준에서 얼마나 벗어나는지 보고 선택, 집단 구조, 비무작위 교배, 표본 문제를 의심할 수 있기 때문입니다.

두 allele A와 a가 있고 A의 빈도를 p, a의 빈도를 q라고 합시다. 둘뿐이면 p + q = 1입니다. Hardy-Weinberg 기대 genotype 빈도는 AA = p², Aa = 2pq, aa = q²입니다. 각 기호는 집단에서 해당 유전형이 나타날 기대 비율을 뜻합니다.

예를 들어 A 빈도 p=0.7, a 빈도 q=0.3이면 AA=0.49, Aa=0.42, aa=0.09입니다. 1000명 집단이라면 기대 인원은 AA 490명, Aa 420명, aa 90명입니다.

주의할 점은 Hardy-Weinberg가 현실을 완벽히 설명하는 법칙이 아니라 비교 기준이라는 것입니다. 실제 데이터가 벗어났다고 해서 바로 자연선택이라고 단정하면 안 됩니다. 표본 크기, 집단 섞임, genotyping error, 근친교배, 선택 등 여러 가능성을 따져야 합니다.

핵심 정리

집단유전학은 집단 안에서 대립유전자 빈도가 어떻게 분포하고 변하는지 연구합니다. 하디-바인베르크 평형은 비교를 위한 기준선이고, 연관불평형과 일배체형은 가까운 변이들이 함께 전달될 수 있음을 보여 줍니다. 집단구조를 무시하면 가짜 연관성을 만들 수 있습니다. 계산생물학자는 변이 하나만 보는 것이 아니라, 그 변이가 집단 안에서 어떤 빈도와 맥락을 가지는지 함께 봐야 합니다.