부록 A04: DNA와 유전체
이 장에서 배울 것
이 장에서는 생명 정보의 대표 저장 분자인 DNA(deoxyribonucleic acid)를 배웁니다. 앞으로는 그냥 DNA라고 부르겠습니다. DNA를 “A, T, G, C 네 글자로 된 긴 문자열”로 보면 생물정보학과 연결하기 쉽습니다. 하지만 DNA는 실제로 화학적 성질을 가진 분자라는 점도 잊으면 안 됩니다.
먼저 용어를 정리합니다.
- 염기(base): DNA 문자를 이루는 기본 단위입니다. A, T, G, C가 있습니다.
- 염기서열(sequence): 염기들이 줄지어 있는 순서입니다.
- 유전자(gene): 단백질이나 기능성 RNA를 만드는 데 관련된 DNA 구간입니다.
- 염색체(chromosome): DNA가 단백질과 함께 길게 포장된 구조입니다.
- 유전체(genome): 한 생명체가 가진 DNA 정보 전체입니다.
가장 쉬운 비유: DNA는 매우 긴 책입니다
DNA를 아주 긴 책이라고 생각해 봅시다. 이 책은 한글이나 영어가 아니라 A, T, G, C 네 글자로 쓰여 있습니다. 어떤 구간은 단백질을 만드는 데 필요한 정보를 담고, 어떤 구간은 정보를 언제 얼마나 읽을지 조절합니다. 어떤 구간은 아직 기능을 잘 모르는 반복적인 문장처럼 보이기도 합니다.
하지만 DNA를 “설계도”라고만 부르면 오해가 생길 수 있습니다. 설계도는 보통 사람이 의도적으로 만든 문서입니다. DNA는 진화 과정에서 생겨난 정보 저장소입니다. 그래서 깔끔한 설명서라기보다 오래된 책, 덧붙인 메모, 반복 문장, 수정 흔적이 함께 들어 있는 거대한 기록물에 가깝습니다.
DNA의 기본 구조
DNA는 두 가닥이 서로 마주 보고 꼬인 이중나선 구조를 가집니다. 한쪽 가닥의 A는 반대쪽의 T와 짝을 이루고, G는 C와 짝을 이룹니다. 이 관계를 염기쌍(base pair)이라고 합니다.
염기쌍 규칙 덕분에 DNA는 복사될 수 있습니다. 한쪽 가닥을 기준으로 반대쪽 가닥을 만들 수 있기 때문입니다. 생명체가 세포분열을 할 때 DNA를 복제할 수 있는 이유가 여기에 있습니다.
유전자와 유전체는 다릅니다
유전자는 DNA 전체 중 특정 기능과 관련된 구간입니다. 하지만 유전체는 유전자만 뜻하지 않습니다. 유전체는 한 생명체의 DNA 전체입니다. 유전자 사이의 구간, 반복서열, 조절 구간, 아직 기능을 모르는 구간도 모두 유전체에 포함됩니다.
초보자가 자주 하는 오해가 있습니다. “DNA 전체가 유전자다”라고 생각하는 것입니다. 정확히는 DNA 안에 유전자가 있고, 유전체는 DNA 정보 전체입니다.
암호화 구간과 비암호화 구간
단백질의 아미노산 서열로 번역되는 DNA 구간을 암호화 구간(coding region)이라고 합니다.
반대로 단백질 서열로 직접 번역되지 않는 구간을 비암호화 구간(non-coding region)이라고 합니다. 예전에는 이런 구간을 중요하지 않게 보는 경향도 있었지만, 현대 생물학에서는 비암호화 구간이 유전자 조절, 염색체 구조, 진화, 질병과 깊게 관련될 수 있음을 알고 있습니다.
DNA 데이터와 생물정보학
DNA 서열은 컴퓨터에서 문자열처럼 다룰 수 있습니다. 예를 들어 ATGCCGTA 같은 형태로 저장할 수 있습니다. 그래서 문자열 비교, 패턴 찾기, 정렬, 압축, 검색 같은 컴퓨터과학 개념이 DNA 분석과 잘 연결됩니다.
유전체 분석에서는 긴 DNA 서열을 읽고, 기준 유전체와 비교하고, 변이를 찾고, 어떤 구간이 기능적으로 중요한지 추정합니다. 이때 DNA를 단순한 문자열로만 보면 계산은 쉬워지지만, 생물학적 해석은 부족해질 수 있습니다. 어느 구간이 유전자인지, 조절 구간인지, 반복서열인지 알아야 의미를 해석할 수 있습니다.
보강 학습: 방향성, 상보서열, 참조유전체
DNA의 기본 단위는 뉴클레오타이드입니다. 입문 단계에서는 A, T, G, C 염기를 먼저 익히지만, 실제로는 염기·당·인산이 합쳐진 단위가 뉴클레오타이드입니다. DNA는 A-T, G-C 상보성 규칙을 따릅니다. 예를 들어 AAGCT의 상보서열은 TTCGA입니다.
DNA와 RNA에는 방향이 있습니다. 보통 서열은 5′에서 3′ 방향으로 적습니다. 이 방향성은 전사 방향, primer 설계, 유전자 위치 해석에서 중요합니다. DNA를 단순 문자열로만 보면 편하지만, 실제 분석에서는 어느 가닥의 어느 방향을 보고 있는지 확인해야 합니다.
유전체는 유전자만 뜻하지 않습니다. 유전자 사이 구간, 반복서열, 프로모터, enhancer, 비암호화 RNA 유전자, 아직 기능을 모르는 구간도 유전체에 포함됩니다. 비암호화 구간은 단백질 서열로 직접 번역되지 않을 뿐, 조절 기능을 가질 수 있습니다.
생물정보학 분석에서는 참조유전체와 주석(annotation)이 중요합니다. 참조유전체는 분석 기준으로 쓰는 대표 서열이고, 주석은 유전체 위에 유전자·엑손·조절 구간 같은 정보를 표시한 것입니다. 같은 raw data라도 어떤 참조유전체와 주석을 쓰느냐에 따라 변이 위치나 발현량 집계가 달라질 수 있습니다.
간단한 계산도 필요합니다. 이중가닥 DNA에서 A의 비율은 T의 비율과 같고, G의 비율은 C의 비율과 같습니다. A가 30%라면 T도 30%이고, 남은 40%를 G와 C가 나누므로 G는 20%, C는 20%입니다.
보강 학습 2: DNA 서열을 숫자로 요약할 때의 주의점
DNA는 문자열처럼 다룰 수 있기 때문에 길이, GC 함량, 변이 개수 같은 숫자로 자주 요약됩니다. 이런 숫자가 필요한 이유는 긴 서열을 한눈에 비교하기 위해서입니다. 다만 숫자 요약은 서열의 생물학적 맥락을 모두 담지는 못합니다.
GC 함량은 전체 염기 중 G와 C가 차지하는 비율입니다. 공식은 GC 함량 = (G 개수 + C 개수) / 전체 염기 수 × 100%입니다. 예를 들어 ATGCGC는 G가 2개, C가 2개, 전체 길이가 6이므로 GC 함량은 4/6 × 100% ≈ 66.7%입니다. 이 값은 primer 설계, 유전체 특징 비교, sequencing 품질 해석에서 참고가 됩니다.
하지만 GC 함량만으로 기능을 단정하면 안 됩니다. GC 함량이 높은 구간이 항상 유전자라는 뜻도 아니고, 낮은 구간이 항상 기능이 없다는 뜻도 아닙니다. 위치, 주석, 보존성, 발현 여부, 변이 영향 같은 정보가 함께 필요합니다.
또 하나 중요한 것은 참조유전체 기준입니다. 변이 위치 chr1:1000 A>G라는 표현은 특정 참조유전체 좌표계 위에서만 의미가 있습니다. 참조 버전이 달라지면 같은 생물학적 변이가 다른 좌표로 표시될 수 있습니다. 그래서 분석 보고서에는 참조유전체 버전과 주석 버전을 함께 적는 습관이 필요합니다.
핵심 정리
DNA는 A, T, G, C 염기로 이루어진 정보 저장 분자입니다. 유전자는 DNA 중 기능과 관련된 구간이고, 유전체는 한 생명체가 가진 DNA 전체입니다. DNA는 문자열처럼 분석할 수 있지만, 실제로는 세포 안에서 접히고 조절되는 생체분자이므로 생물학적 맥락과 함께 해석해야 합니다.
문제 풀이
DNA와 유전체
주관식 답안은 Gemini API로 채점합니다. API 키는 이 브라우저에만 저장됩니다.
-
1. [쉬움] 객관식
DNA를 이루는 네 염기 조합으로 맞는 것은?
-
2. [쉬움] 객관식
DNA 이중나선에서 염기쌍 규칙으로 맞는 것은?
-
3. [보통] 객관식
5’→3’ 방향성이 중요한 이유는?
-
4. [보통] 객관식
서열 5’-ATGC-3’의 상보적 가닥을 3’→5’로 쓰면?
-
5. [보통] 객관식
참조 유전체(reference genome)의 역할은?
-
6. [보통] 객관식
유전자 주석(annotation)을 가장 잘 설명한 것은?
-
7. [어려움] 객관식
DNA 20개 염기 중 G가 6개, C가 4개라면 GC 함량은?
-
8. [어려움] 객관식
짧은 read가 참조 유전체 여러 위치에 비슷하게 붙을 때 생길 수 있는 문제는?
-
9. [쉬움] 객관식
염색체를 가장 적절히 설명한 것은?
-
10. [보통] 객관식
엑손과 인트론에 대한 설명으로 적절한 것은?
-
11. [보통] 객관식
SNP를 해석할 때 참조 유전체와 비교하는 이유는?
-
12. [어려움] 객관식
“유전체가 같다”와 “유전자 발현이 같다”의 관계를 가장 잘 설명한 것은?
-
주관식 13. [쉬움] 주관식 · Gemini 채점
DNA의 염기쌍 규칙과 5’→3’ 방향성이 왜 중요한지 설명하라.
-
주관식 14. [보통] 주관식 · Gemini 채점
참조 유전체와 유전자 주석의 차이를 설명하라.
-
주관식 15. [보통] 주관식 · Gemini 채점
서열 5’-AAGTCC-3’의 상보적 가닥을 3’→5’로 쓰고, 계산 과정을 설명하라.
-
주관식 16. [어려움] 주관식 · Gemini 채점
같은 유전체를 가진 세포들이 서로 다른 기능을 할 수 있는 이유를 설명하라.
-
주관식 17. [어려움] 주관식 · Gemini 채점
짧은 sequencing read를 참조 유전체에 붙일 때 반복서열이 문제가 되는 이유를 설명하라.
-
18. [계산] 객관식
DNA 서열 ATGCGC의 GC 함량은?
-
19. [보통] 객관식
변이 표기에서 참조유전체 버전이 중요한 이유는?
-
20. [어려움] 객관식
GC 함량이 높은 구간을 해석할 때 가장 안전한 태도는?
-
주관식 21. [보통] 주관식 · Gemini 채점
GC 함량 공식의 각 요소를 설명하고 간단한 예를 들어 계산하라.
-
주관식 22. [어려움] 주관식 · Gemini 채점
DNA를 문자열처럼 다루는 방식의 장점과 한계를 설명하라.