부록 A22: 실험과 데이터 생성 원리

7 분 소요

이 장에서 배울 것

이번 장에서는 생물정보학 데이터가 어떻게 만들어지는지 배웁니다. 계산생물학자는 컴퓨터 앞에서 데이터를 분석하지만, 그 데이터는 실험실에서 만들어집니다. 그래서 분석자는 실험자가 아니어도 실험 원리를 어느 정도 알아야 합니다.

핵심 용어를 먼저 정리하겠습니다.

시료(sample): 실험에 쓰는 실제 생물학적 재료입니다. 혈액, 조직, 세포, 미생물 배양액 등이 시료가 될 수 있습니다.
대조군(control group): 비교 기준이 되는 집단입니다. 약물 처리 실험이라면 처리하지 않은 집단이 대조군이 될 수 있습니다.
실험군(experimental group): 연구자가 관심 있는 처리를 받은 집단입니다.
중합효소 연쇄반응(PCR, polymerase chain reaction): 특정 DNA 구간을 많이 복사하는 기술입니다. 앞으로는 PCR이라고 부르겠습니다.
정량 PCR(qPCR, quantitative PCR): DNA나 RNA 양을 비교적 정량적으로 측정하는 PCR 기반 기술입니다. 앞으로는 qPCR이라고 부르겠습니다.
생어 시퀀싱(Sanger sequencing): 비교적 짧은 DNA 구간을 정확하게 읽는 고전적 서열 분석 기술입니다.
차세대 시퀀싱(NGS, next-generation sequencing): 많은 DNA 조각을 한꺼번에 대량으로 읽는 기술입니다. 앞으로는 NGS라고 부르겠습니다.
기술적 잡음(technical noise): 생물학적 차이가 아니라 실험 과정이나 측정 과정에서 생기는 흔들림입니다.
배치 효과(batch effect): 시료 처리 날짜, 실험자, 장비, 시약 묶음 차이 때문에 생기는 비생물학적 차이입니다.

실험과 데이터 생성 원리

가장 쉬운 비유: 사진을 분석하기 전에 카메라를 알아야 합니다

사진을 보고 어떤 장소인지 분석한다고 합시다. 그런데 카메라 렌즈가 더럽거나, 조명이 너무 어둡거나, 색 보정이 이상하면 사진 분석 결과도 흔들립니다. 이때 문제는 장소 자체가 아니라 사진이 만들어지는 과정에 있습니다.

생물정보학 데이터도 같습니다. 분석자는 숫자표나 서열 파일을 보지만, 그 숫자는 실험 장비와 프로토콜을 거쳐 만들어집니다. 데이터가 어떻게 만들어졌는지 모르면 생물학적 차이와 기술적 잡음을 헷갈릴 수 있습니다.

시료, 대조군, 실험군

실험은 보통 비교로 시작합니다. 암 조직과 정상 조직, 약물 처리 전과 후, 감염된 세포와 감염되지 않은 세포처럼 두 상태를 비교합니다.

대조군은 기준이 되는 집단입니다. 실험군은 연구자가 관심 있는 조건을 가진 집단입니다. 예를 들어 어떤 약물이 유전자 발현을 바꾸는지 보고 싶다면, 약물을 처리하지 않은 세포가 대조군이고 약물을 처리한 세포가 실험군입니다.

이때 중요한 것은 두 집단이 가능한 한 공정하게 비교되어야 한다는 점입니다. 실험군만 다른 날 처리하고 대조군만 다른 장비로 측정하면, 결과 차이가 약물 때문인지 날짜와 장비 때문인지 헷갈릴 수 있습니다.

PCR: 특정 DNA를 많이 복사하기

PCR은 특정 DNA 구간을 많이 복사하는 기술입니다. DNA가 너무 적으면 직접 보기 어렵기 때문에, 원하는 구간만 반복해서 복사해 양을 늘립니다.

비유하면 작은 문장 하나가 적힌 종이를 복사기로 수백만 장 복사하는 것과 비슷합니다. 원래 종이가 한 장뿐이면 읽고 확인하기 어렵지만, 복사본이 많아지면 검출하기 쉬워집니다.

PCR은 진단, 클로닝, 시퀀싱 준비, 유전자 확인 등 여러 곳에서 쓰입니다. 다만 PCR은 복사 과정이므로 편향이 생길 수 있습니다. 어떤 구간은 더 잘 증폭되고, 어떤 구간은 덜 증폭될 수 있습니다.

qPCR: 양을 비교하려는 PCR

qPCR은 PCR을 이용하되, 얼마나 많은 DNA 또는 RNA가 있었는지 비교하려는 기술입니다. RNA를 측정할 때는 먼저 RNA를 DNA 형태로 바꾸는 과정이 들어갈 수 있습니다. 이 경우를 역전사 qPCR(RT-qPCR, reverse transcription qPCR)이라고 합니다. 앞으로는 RT-qPCR이라고 부르겠습니다.

예를 들어 감염 후 특정 유전자의 발현이 늘었는지 보고 싶다면 qPCR을 쓸 수 있습니다. 다만 qPCR도 기준 유전자 선택, 시료 품질, 증폭 효율에 영향을 받습니다.

생어 시퀀싱과 NGS

생어 시퀀싱은 비교적 짧은 DNA 구간을 정확하게 읽는 데 강한 기술입니다. 특정 유전자 일부를 확인하거나, 작은 변이를 검증할 때 쓰일 수 있습니다.

NGS는 많은 DNA 조각을 동시에 읽습니다. 이 기술 덕분에 유전체 전체, 전사체 전체, 단일세포 데이터 같은 대규모 분석이 가능해졌습니다. NGS 데이터는 보통 짧은 read가 많이 만들어지고, 분석자는 이 read를 기준 유전체에 맞추거나 조립하고, 변이와 발현량을 계산합니다.

NGS는 강력하지만 완벽하지 않습니다. read 품질, GC 비율, 라이브러리 준비, 시퀀싱 깊이, 중복 read, 오염 같은 문제가 결과에 영향을 줄 수 있습니다.

RNA-seq, ChIP-seq, ATAC-seq

RNA-seq은 RNA를 읽어 유전자 발현을 측정하는 기술입니다. 어떤 유전자가 얼마나 사용되고 있는지 보는 데 쓰입니다.

ChIP-seq은 특정 단백질이 DNA의 어느 위치에 붙어 있는지 보는 기술입니다. 예를 들어 전사인자가 어떤 조절 영역에 붙는지 분석할 수 있습니다. 여기서 전사인자는 앞에서 배운 유전자 발현 조절 단백질입니다.

ATAC-seq은 DNA가 열려 있는 영역을 찾는 기술입니다. DNA가 촘촘히 감겨 있으면 조절 단백질이 접근하기 어렵고, 열려 있으면 접근하기 쉽습니다. 그래서 ATAC-seq은 유전자 조절 상태를 이해하는 데 쓰입니다.

이 세 기술은 서로 다른 질문에 답합니다. RNA-seq은 “무엇이 발현되는가”, ChIP-seq은 “어떤 단백질이 어디에 붙는가”, ATAC-seq은 “어떤 DNA 영역이 열려 있는가”를 묻습니다.

단일세포 RNA-seq

단일세포 RNA-seq은 세포 하나하나의 RNA를 측정하는 기술입니다. 조직 전체 평균이 아니라 세포별 차이를 볼 수 있습니다.

이 기술에는 세포 바코드(cell barcode)와 고유 분자 표지(UMI, unique molecular identifier)가 자주 등장합니다. 세포 바코드는 “이 RNA가 어느 세포에서 왔는지” 표시하는 꼬리표입니다. 고유 분자 표지는 “이 RNA 분자가 원래 몇 개였는지” 중복을 보정하는 꼬리표입니다.

단일세포 데이터는 강력하지만 잡음이 큽니다. 어떤 유전자는 실제로 발현되었는데 측정되지 않을 수 있고, 죽어가는 세포나 이중 세포가 섞일 수도 있습니다. 그래서 품질 관리가 중요합니다.

질량분석과 현미경 데이터

질량분석(mass spectrometry)은 분자의 질량과 전하 정보를 이용해 단백질이나 대사산물을 분석하는 기술입니다. 단백체학과 대사체학에서 중요합니다.

현미경(microscopy)은 세포와 조직을 이미지로 관찰하는 기술입니다. 형광 현미경은 특정 분자나 세포 구조를 빛나게 표시할 수 있습니다. 최근에는 이미지 데이터도 딥러닝과 결합해 세포 상태, 조직 구조, 병리 패턴을 분석하는 데 많이 쓰입니다.

기술적 잡음과 배치 효과

기술적 잡음은 생물학적 차이가 아니라 측정 과정에서 생긴 흔들림입니다. 같은 시료를 여러 번 측정해도 완전히 같은 값이 나오지 않을 수 있습니다.

배치 효과는 실험 날짜, 실험자, 장비, 시약, 처리 순서 때문에 특정 묶음의 데이터가 다르게 보이는 현상입니다. 예를 들어 암 시료는 월요일에 처리하고 정상 시료는 금요일에 처리했다면, 두 집단 차이가 질병 때문인지 요일과 실험 조건 때문인지 헷갈릴 수 있습니다.

그래서 좋은 연구 설계에서는 시료를 섞어 처리하고, 반복 실험을 두고, 메타데이터를 꼼꼼히 기록하고, 분석 단계에서 배치 효과를 확인합니다.

생물정보학에서 실험 원리가 중요한 이유

분석자는 파일을 받으면 먼저 물어야 합니다.

이 데이터는 어떤 시료에서 왔는가? 어떤 기술로 만들어졌는가? 대조군과 실험군은 어떻게 배치되었는가? read 품질은 좋은가? 배치 정보가 있는가? 결측과 잡음은 어떤 방식으로 생길 수 있는가?

이 질문 없이 바로 통계분석을 돌리면 위험합니다. 계산은 정확해 보여도, 잘못 만들어진 데이터에서는 잘못된 결론이 나올 수 있습니다.

계산 감각: 읽기 수, 길이, 깊이는 데이터 규모를 보는 기본 숫자입니다

시퀀싱 데이터에서는 몇 개의 조각을 읽었는지, 각 조각이 얼마나 긴지, 전체 유전체를 평균적으로 몇 번 덮었는지가 중요합니다. 여기서 “덮었다”는 말은 같은 위치를 여러 읽기 조각이 지나갔다는 뜻입니다.

총 읽은 염기 수 = 읽기 수 × 읽기 길이
평균 깊이 = 총 읽은 염기 수 / 대상 유전체 길이

예를 들어 읽기 100만 개가 있고 각 읽기 길이가 100염기라면 총 읽은 염기 수는 100,000,000염기입니다. 대상 유전체 길이가 10,000,000염기라면 평균 깊이는 10배입니다.

깊이가 높을수록 같은 위치를 여러 번 확인할 수 있어 변이 판단이 더 안정될 수 있습니다. 하지만 깊이가 높다고 모든 문제가 해결되는 것은 아닙니다. 실험 오류, 편향, 반복서열, 낮은 품질 같은 문제도 함께 봐야 합니다.

보강 학습: 좋은 분석은 좋은 실험 설계에서 시작됩니다

생물정보학에서 가장 위험한 착각은 “분석 방법이 좋으면 데이터 문제를 모두 해결할 수 있다”는 생각입니다. 실험 설계가 잘못되면 아무리 정교한 통계 모델을 써도 결론이 흔들립니다. 그래서 분석자는 실험자가 아니더라도 시료, 반복, 배치, 측정 원리를 이해해야 합니다.

먼저 생물학적 반복(biological replicate)과 기술적 반복(technical replicate)을 구분해야 합니다. 생물학적 반복은 서로 다른 개체나 독립적으로 준비한 시료를 말합니다. 기술적 반복은 같은 시료를 여러 번 측정하는 것입니다. 질병군과 정상군의 일반적인 차이를 알고 싶다면 생물학적 반복이 특히 중요합니다. 기술적 반복만 많아도 독립된 생물학적 근거가 늘어나는 것은 아닙니다.

무작위화와 배치 균형도 중요합니다. 실험군은 월요일, 대조군은 금요일에만 처리하면 군 차이와 요일 차이가 섞입니다. 이것은 배치 효과이면서 교란 문제를 만들 수 있습니다. 좋은 설계에서는 실험군과 대조군을 여러 배치에 섞고, 처리 순서를 기록하고, 분석에 필요한 메타데이터를 남깁니다.

qPCR에서는 Ct 값을 이해해야 합니다. Ct 값은 신호가 기준선을 넘기까지 필요한 PCR cycle 수입니다. 시작 물질이 많으면 더 적은 cycle만으로 신호가 보이므로 Ct가 낮습니다. 즉 같은 조건이라면 Ct가 낮을수록 표적 DNA/RNA가 많았다고 해석합니다. 단, 기준 유전자와 증폭 효율을 고려해야 합니다.

NGS 데이터는 여러 형태로 바뀝니다. 장비에서 나온 원자료는 보통 FASTQ처럼 read와 품질 정보를 담습니다. read를 기준 유전체에 맞추면 BAM 같은 정렬 파일이 만들어질 수 있습니다. RNA-seq에서는 유전자별 count matrix가 나오고, ChIP-seq이나 ATAC-seq에서는 peak 목록이 중요한 결과가 됩니다. 파일 형식은 단순한 기술 정보가 아니라 “어떤 생물학적 질문을 할 수 있는가”를 결정합니다.

실험 기술마다 결과물의 의미도 다릅니다. RNA-seq count는 유전자 발현량의 단서이고, ChIP-seq peak는 특정 단백질이 DNA에 결합한 위치의 단서이며, ATAC-seq peak는 DNA가 열려 접근 가능한 위치의 단서입니다. 이 셋을 혼동하면 “발현 증가”, “전사인자 결합”, “염색질 접근성”을 잘못 섞어 해석하게 됩니다.

분석자는 파일을 받는 순간부터 실험 설계를 다시 읽어야 합니다. 어떤 시료인가, 어떤 반복인가, 어떤 배치인가, 어떤 기술인가, 어떤 파일 단계인가, 어떤 잡음이 예상되는가를 확인해야 합니다. 이 습관이 계산생물학 연구의 품질을 크게 좌우합니다.

보강 학습 2: 실험 설계와 데이터 생성 과정을 모르면 해석이 흔들린다

생물정보학자는 데이터를 받은 뒤 분석하지만, 데이터가 어떻게 만들어졌는지 모르면 숫자를 잘못 해석하기 쉽습니다. 샘플 채취, 세포 분리, RNA 추출, library preparation, sequencing, alignment, counting 과정이 모두 결과에 영향을 줍니다.

예를 들어 두 조건 A와 B를 비교하는데 A 샘플은 월요일에 처리하고 B 샘플은 금요일에 처리했다면, 차이가 생물학적 조건 때문인지 날짜 batch 때문인지 헷갈릴 수 있습니다. 그래서 조건은 가능한 batch 안에 섞고, 충분한 biological replicate를 둬야 합니다.

간단한 read count 예시를 봅시다. 유전자 X read count가 샘플1에서 100, 샘플2에서 200이라고 해서 바로 2배 발현이라고 말할 수 없습니다. 샘플2의 전체 sequencing depth가 샘플1보다 2배라면 정규화 후 차이가 사라질 수 있습니다.

실험 데이터 해석의 핵심 질문은 네 가지입니다. 무엇을 측정했는가, 어떤 샘플에서 왔는가, 어떤 기술적 처리를 거쳤는가, 비교 가능한 방식으로 정규화되었는가. 이 질문을 거치면 batch effect와 생물학적 차이를 구분하는 힘이 생깁니다.

핵심 정리

생물정보학 데이터는 실험 과정을 거쳐 만들어집니다. PCR은 특정 DNA 구간을 많이 복사하고, qPCR은 양을 비교하는 데 쓰입니다. 생어 시퀀싱은 짧은 구간 확인에 강하고, NGS는 대량 서열 분석을 가능하게 합니다. RNA-seq, ChIP-seq, ATAC-seq, 단일세포 RNA-seq은 서로 다른 생물학적 질문에 답합니다. 기술적 잡음과 배치 효과를 모르면 생물학적 차이와 실험 과정의 차이를 혼동할 수 있습니다. 계산생물학자는 데이터를 분석하기 전에 데이터가 만들어진 과정을 반드시 이해해야 합니다.