챕터 09 선수지식: 전사체학 기초에 들어가기 전 알아야 할 것

38 분 소요

1. 9챕터는 무엇을 하려는 장인가요?

9챕터는 “세포가 지금 어떤 유전자를 얼마나 사용하고 있는지 어떻게 측정할까요?”라는 질문을 다룹니다.

전사체학(transcriptomics)은 특정 세포나 조직, 특정 조건에서 만들어지는 모든 RNA를 분석하는 분야입니다. 유전체학이 생명체가 가진 설계도 전체를 본다면, 전사체학은 그 설계도 중 현재 실제로 읽히고 있는 부분을 봅니다.

비유하면 유전체는 도서관에 꽂힌 전체 책 목록이고, 전사체는 지금 사람들이 실제로 펼쳐 읽고 있는 책들의 목록과 읽는 빈도입니다. 책이 도서관에 있다고 해서 항상 읽히는 것은 아닙니다. 마찬가지로 유전자가 DNA에 있다고 해서 항상 발현되는 것은 아닙니다.

9장에서는 마이크로어레이, qPCR, RNA-seq, FPKM, TPM, 정규화, 포아송 분포, 음이항분포, 과대산포, 배치 효과, 차등 발현 분석, 화산 플롯, RNA-seq 파이프라인 같은 개념이 등장합니다.

처음부터 수식과 도구 이름을 모두 외우려 하면 부담스럽습니다. 먼저 큰 흐름을 잡는 것이 중요합니다.

RNA를 측정하면 세포가 어떤 유전자를 실제로 사용 중인지 알 수 있고, 조건 간 RNA 양을 비교하면 질병·약물·발달 과정의 변화를 해석할 수 있습니다.

2. 전사체는 “현재 켜져 있는 유전자들의 RNA 목록”입니다

전사체(transcriptome)는 특정 시점, 특정 조건, 특정 세포나 조직에서 존재하는 RNA 전체를 뜻합니다. 여기서 RNA 전체라고 하면 mRNA뿐 아니라 여러 비코딩 RNA도 포함될 수 있습니다. 다만 실험 방법에 따라 실제로 측정되는 RNA 종류는 달라질 수 있습니다.

유전체와 전사체의 차이는 다음과 같습니다.

구분	유전체	전사체
무엇을 보나요?	DNA 전체	RNA 전체 또는 일부
성격	비교적 안정적	조건과 시간에 따라 크게 변함
질문	어떤 유전 정보를 가지고 있나요?	지금 어떤 유전자를 사용하고 있나요?
비유	도서관 전체 책 목록	지금 펼쳐 읽고 있는 책 목록

예를 들어 같은 사람의 피부세포와 간세포는 유전체가 거의 같습니다. 하지만 전사체는 다릅니다. 피부세포는 피부 구조와 관련된 유전자를 많이 발현하고, 간세포는 대사와 해독 관련 유전자를 많이 발현합니다.

질병 상태에서도 전사체는 달라질 수 있습니다. 암세포는 정상세포와 다른 발현 패턴을 보일 수 있고, 약물 처리를 받은 세포는 약물 반응 유전자를 켤 수 있습니다. 그래서 전사체학은 질병 바이오마커 발굴, 약물 반응 분석, 세포 상태 분류에 매우 중요합니다.

3. 마이크로어레이는 미리 준비된 탐침으로 RNA를 재는 기술입니다

마이크로어레이는 RNA-seq이 널리 쓰이기 전, 유전자 발현을 대규모로 측정하는 대표적인 기술이었습니다. 핵심 원리는 혼성화(hybridization)입니다.

혼성화란 서로 상보적인 염기서열끼리 붙는 현상입니다. DNA에서 A는 T와, C는 G와 잘 짝을 이룹니다. RNA와 DNA 사이에서도 상보적인 서열이 있으면 서로 붙을 수 있습니다.

마이크로어레이 칩에는 수많은 DNA 프로브가 고정되어 있습니다. 각 프로브는 특정 유전자 RNA와 잘 붙도록 설계된 짧은 DNA 조각입니다. 샘플에서 RNA를 추출해 cDNA로 바꾸고 형광 표지를 붙인 뒤 칩에 뿌리면, 해당 유전자와 맞는 프로브에 붙습니다. 그 위치에서 형광이 강하게 빛나면 그 유전자가 많이 발현되었다고 해석합니다.

비유하자면, 마이크로어레이는 수많은 이름표가 붙은 우편함입니다. 샘플에서 나온 편지들이 자신과 맞는 우편함에 들어가고, 많이 들어간 우편함은 더 밝게 빛납니다.

마이크로어레이의 장점은 비용이 비교적 낮고, 이미 알려진 유전자를 안정적으로 측정할 수 있다는 점입니다. 단점은 미리 칩에 설계된 프로브에 해당하는 것만 측정할 수 있다는 점입니다. 즉, 새로운 전사체나 예상하지 못한 이소폼을 찾기 어렵습니다.

4. qPCR은 특정 유전자의 발현량을 정밀하게 확인하는 기술입니다

qPCR은 특정 DNA 또는 cDNA 조각을 증폭하면서 그 양을 실시간으로 측정하는 기술입니다. 전사체학에서는 보통 RNA를 먼저 cDNA로 바꾼 뒤 qPCR을 수행합니다. 이를 RT-qPCR이라고 합니다.

PCR은 원하는 DNA 조각을 반복적으로 복사해 양을 늘리는 기술입니다. qPCR에서는 복사될 때마다 형광 신호가 늘어나므로, 어느 시점에 신호가 감지 가능한 수준을 넘는지 확인합니다. 처음부터 표적이 많았던 샘플은 적은 사이클만 돌아도 신호가 빨리 올라옵니다. 처음 표적이 적었던 샘플은 더 많은 사이클이 필요합니다.

qPCR은 RNA-seq이나 마이크로어레이 결과를 검증할 때 자주 사용됩니다. 예를 들어 RNA-seq에서 어떤 유전자가 암세포에서 증가했다고 나왔다면, qPCR로 그 유전자 몇 개를 다시 정밀하게 확인할 수 있습니다.

다만 qPCR은 한 번에 많은 유전자를 탐색하는 데는 적합하지 않습니다. 보통 이미 관심 있는 유전자가 정해져 있을 때 강합니다.

정리하면 다음과 같습니다.

기술	강점	한계
마이크로어레이	많은 알려진 유전자를 비교적 저렴하게 측정	새로운 전사체 발견이 어려움
qPCR	특정 유전자를 빠르고 정밀하게 측정	한 번에 많은 유전자 탐색은 어려움
RNA-seq	전체 전사체를 넓고 깊게 분석	데이터 분석과 비용 부담이 더 큼

5. Bulk RNA-seq은 여러 세포의 RNA를 모아 평균 발현을 보는 방법입니다

RNA-seq은 NGS를 이용해 RNA를 대규모로 읽는 기술입니다. 3장 선수지식에서 NGS와 Fastq, read, 정렬 개념을 이미 다뤘습니다. 자세한 설명은 3장 선수지식의 NGS 부분을 참고하시면 됩니다.

Bulk RNA-seq은 많은 세포에서 RNA를 한꺼번에 추출해 분석합니다. 그래서 결과는 개별 세포 하나하나의 발현량이 아니라, 세포 집단의 평균적인 발현 패턴입니다.

Bulk RNA-seq 파이프라인

일반적인 흐름은 다음과 같습니다.

세포나 조직에서 RNA를 추출합니다.
mRNA를 선택하거나 전체 RNA 중 관심 RNA를 준비합니다.
RNA를 cDNA로 역전사합니다.
시퀀싱 라이브러리를 만듭니다.
NGS로 read를 생성합니다.
read를 참조 유전체 또는 전사체에 정렬합니다.
각 유전자에 몇 개의 read가 붙었는지 셉니다.
정규화와 통계 분석을 통해 발현 차이를 해석합니다.

여기서 cDNA라는 말이 중요합니다. NGS 장비는 보통 DNA를 읽습니다. RNA를 직접 읽는 방식도 있지만, 전통적인 RNA-seq에서는 RNA를 DNA 형태로 바꾼 cDNA를 만들어 시퀀싱합니다.

6. Poly-A 선택은 mRNA를 골라내는 대표적인 방법입니다

진핵생물의 많은 mRNA는 3’ 끝에 poly-A tail이라는 아데닌(A) 반복 꼬리를 가지고 있습니다. 이 꼬리는 mRNA 안정성과 번역 조절에 관여합니다.

RNA-seq 실험에서는 이 poly-A 꼬리를 이용해 mRNA를 골라낼 수 있습니다. oligo-dT라는 T가 반복된 짧은 서열을 사용하면 A가 반복된 poly-A 꼬리와 잘 붙습니다. 이렇게 하면 전체 RNA 중 mRNA를 선택적으로 포획할 수 있습니다.

하지만 poly-A 선택에는 한계가 있습니다.

poly-A 꼬리가 없는 비코딩 RNA는 놓칠 수 있습니다.
일부 특수한 mRNA도 놓칠 수 있습니다.
RNA가 손상되어 poly-A 꼬리가 짧아지면 잘 포획되지 않을 수 있습니다.

그래서 연구 목적에 따라 total RNA-seq 같은 방법을 사용하기도 합니다. 7장에서 비코딩 RNA를 다룬 이유가 여기서도 연결됩니다. 어떤 RNA를 측정하고 싶은지에 따라 실험 설계가 달라집니다.

7. RNA-seq의 기본 결과는 “유전자별 read 카운트 표”입니다

RNA-seq 분석의 출발점은 각 유전자에 몇 개의 read가 붙었는지 세는 것입니다. 예를 들어 샘플 3개와 유전자 4개가 있다면 다음과 같은 표가 만들어질 수 있습니다.

유전자	정상 샘플 1	정상 샘플 2	암 샘플 1	암 샘플 2
GeneA	120	135	980	1020
GeneB	520	500	490	510
GeneC	30	28	7	9
GeneD	2100	2050	2300	2250

이 표만 보면 GeneA는 암 샘플에서 크게 증가한 것처럼 보입니다. GeneC는 감소한 것처럼 보입니다. 하지만 실제 분석에서는 단순히 숫자만 보고 판단하면 안 됩니다.

왜냐하면 다음과 같은 문제가 있기 때문입니다.

샘플마다 전체 시퀀싱 read 수가 다를 수 있습니다.
유전자마다 길이가 다릅니다.
기술적 편향이 있을 수 있습니다.
생물학적 반복 간 변이가 있습니다.
수천~수만 개 유전자를 동시에 검사하므로 우연히 유의해 보이는 결과가 생길 수 있습니다.

따라서 RNA-seq은 “read 수 세기”에서 끝나지 않고, 정규화와 통계 모델링이 반드시 필요합니다.

8. 정규화는 공정한 비교를 위한 보정입니다

RNA-seq에서 어떤 유전자에 read가 많이 붙었다고 해서 무조건 발현량이 높다고 말할 수는 없습니다. 긴 유전자는 짧은 유전자보다 read가 더 많이 붙을 기회가 많습니다. 또한 어떤 샘플은 전체적으로 read가 많이 생산되었고, 어떤 샘플은 적게 생산되었을 수 있습니다.

RNA-seq 정규화 필요성

정규화(normalization)는 이런 차이를 보정해 샘플 간, 유전자 간 비교를 더 공정하게 만드는 과정입니다.

대표적으로 FPKM과 TPM이 등장합니다.

FPKM은 “유전자 길이”와 “전체 매핑 read 수”를 고려해 발현량을 보정한 값입니다. 이름은 어렵지만 뜻은 다음과 같습니다.

긴 유전자는 read가 많이 붙기 쉬우니 길이로 나누고, 샘플마다 전체 read 수가 다르니 전체 read 수로도 보정합니다.

TPM도 유전자 길이와 전체량을 보정합니다. TPM의 큰 장점은 한 샘플 안에서 모든 유전자의 TPM 합이 1,000,000이 되도록 맞춰진다는 점입니다. 그래서 샘플 간 발현 비율을 비교할 때 직관적인 장점이 있습니다.

다만 차등 발현 분석에서는 FPKM이나 TPM만으로 검정하지 않고, DESeq2나 edgeR 같은 도구가 사용하는 카운트 기반 정규화와 통계 모델을 쓰는 경우가 많습니다. 입문 단계에서는 FPKM과 TPM을 “발현량을 보기 좋게 보정한 값”으로 이해하고, 차등 발현 검정은 별도의 통계 모델이 필요하다고 생각하면 됩니다.

9. 포아송 분포와 음이항분포는 read 카운트의 흔들림을 설명하는 도구입니다

9장 후반부에는 포아송 분포, 음이항분포, 과대산포 같은 통계 개념이 나옵니다. 수식이 나오면 갑자기 어렵게 느껴질 수 있지만, 질문은 단순합니다.

유전자별 read 수는 실험할 때마다 조금씩 흔들리는데, 이 흔들림을 어떤 확률 모델로 설명할 수 있을까요?

포아송 분포는 일정 시간이나 공간 안에서 어떤 사건이 몇 번 발생하는지 모델링할 때 자주 쓰입니다. 예를 들어 어떤 유전자에 read가 붙는 일을 사건으로 보면, read 카운트를 포아송 분포로 생각할 수 있습니다.

하지만 실제 RNA-seq 데이터는 포아송 분포보다 더 많이 흔들리는 경우가 많습니다. 포아송 분포는 평균과 분산이 같다는 성질이 있는데, 실제 생물 데이터에서는 분산이 평균보다 훨씬 큰 경우가 흔합니다. 이를 과대산포(overdispersion)라고 합니다.

RNA-seq 과대산포 개념

그래서 RNA-seq 차등 발현 분석에서는 음이항분포(negative binomial distribution)를 자주 사용합니다. 음이항분포는 평균보다 분산이 큰 데이터를 더 잘 설명할 수 있습니다. DESeq2와 edgeR 같은 대표적 RNA-seq 분석 도구도 이 특성을 고려합니다.

초심자에게 필요한 결론은 다음입니다.

RNA-seq read 수는 단순한 숫자처럼 보이지만, 생물학적·기술적 흔들림이 크기 때문에 적절한 확률 모델로 비교해야 합니다.

10. 로그 변환은 큰 차이를 보기 쉽게 줄여주는 도구입니다

RNA-seq 발현량은 유전자마다 차이가 매우 큽니다. 어떤 유전자는 read가 0개에 가깝고, 어떤 유전자는 수만 개가 붙을 수 있습니다. 이런 숫자를 그대로 비교하면 큰 값이 그래프와 분석을 압도합니다.

로그 변환(log transform)은 큰 숫자의 차이를 압축해 보기 쉽게 만드는 방법입니다. 예를 들어 10, 100, 1000은 차이가 매우 커 보이지만, log10으로 바꾸면 1, 2, 3이 됩니다. 차이는 유지되지만 규모가 압축됩니다.

RNA-seq에서는 log(x+1) 같은 변환이 자주 등장합니다. +1을 하는 이유는 0의 로그를 계산할 수 없기 때문입니다. 발현량이 0인 유전자도 있을 수 있으므로, 1을 더해서 계산 가능한 형태로 만듭니다.

로그 변환의 목적은 대략 다음과 같습니다.

너무 큰 값의 영향력을 줄입니다.
데이터 분포를 더 보기 좋게 만듭니다.
평균이 커질수록 분산도 커지는 문제를 완화합니다.
PCA, 클러스터링, 시각화에서 패턴을 더 잘 보이게 합니다.

11. 배치 효과는 생물학적 차이처럼 보이는 기술적 차이입니다

배치 효과(batch effect)는 생물학적으로 의미 있는 차이가 아니라, 실험 과정의 차이 때문에 생기는 체계적 편향입니다.

예를 들어 정상 샘플은 월요일에 처리하고, 암 샘플은 금요일에 처리했다고 해보겠습니다. 그런데 금요일에 사용한 시약 상태가 달랐거나, 실험자가 달랐거나, 시퀀싱 장비가 달랐다면 어떻게 될까요? 분석 결과에서 정상과 암이 다르게 보일 수 있습니다. 하지만 그 차이가 정말 질병 때문인지, 실험 날짜 때문인지 헷갈리게 됩니다.

배치 효과의 원인은 다양합니다.

실험 날짜
시약 제조 번호
실험자
실험실 환경
시퀀싱 장비
샘플 보관 상태
RNA 품질
샘플 처리 순서

배치 효과를 줄이려면 실험 설계 단계에서부터 조심해야 합니다. 예를 들어 정상과 질병 샘플을 같은 날짜와 같은 장비에 섞어서 처리하면 배치 효과와 질병 효과가 덜 헷갈립니다. 분석 단계에서는 정규화, 배치 보정, PCA 확인 등을 통해 문제를 점검합니다.

입문 단계에서는 다음 문장을 기억하면 좋습니다.

RNA-seq에서 보이는 차이가 진짜 생물학적 차이인지, 실험 과정에서 생긴 차이인지 항상 의심하고 확인해야 합니다.

12. 차등 발현 분석은 조건 사이에서 다르게 켜진 유전자를 찾는 일입니다

차등 발현 분석(differential expression analysis)은 두 조건 또는 여러 조건 사이에서 발현량이 유의하게 다른 유전자를 찾는 과정입니다. 예를 들어 정상 조직과 암 조직을 비교해서 어떤 유전자가 암에서 증가하거나 감소하는지 찾을 수 있습니다.

차등 발현 분석에서 자주 나오는 지표는 다음과 같습니다.

지표	뜻	쉬운 설명
log2 fold change	두 조건의 발현량 비율을 log2로 표현	+1이면 약 2배 증가, -1이면 약 2배 감소입니다.
p-value	관찰된 차이가 우연히 나올 확률	작을수록 우연으로 보기 어렵습니다.
adjusted p-value / FDR	다중검정 보정 후의 유의성	수많은 유전자를 동시에 검사할 때 위양성을 줄입니다.
baseMean	평균 발현량	전체적으로 얼마나 많이 발현되는 유전자인지 봅니다.

여기서 fold change는 변화 크기이고, p-value는 통계적 확실성에 가깝습니다. 어떤 유전자는 변화 크기는 크지만 샘플 간 흔들림이 커서 통계적으로 불확실할 수 있습니다. 반대로 변화는 작지만 샘플이 매우 일관되어 통계적으로 유의할 수도 있습니다.

그래서 차등 발현 분석에서는 변화 크기와 유의성을 함께 봐야 합니다.

13. 화산 플롯은 변화 크기와 유의성을 동시에 보여주는 그림입니다

화산 플롯(volcano plot)은 차등 발현 분석 결과를 시각화하는 대표적인 그래프입니다. 그래프 모양이 화산처럼 보여서 붙은 이름입니다.

화산 플롯 개념

보통 X축에는 log2 fold change를 둡니다. 오른쪽으로 갈수록 특정 조건에서 발현이 증가한 유전자이고, 왼쪽으로 갈수록 감소한 유전자입니다.

Y축에는 -log10(p-value) 또는 -log10(adjusted p-value)를 둡니다. p-value가 작을수록 -log10 값은 커지므로, 위쪽에 있는 점일수록 통계적으로 더 유의합니다.

따라서 화산 플롯에서 주로 관심을 갖는 유전자는 왼쪽 위와 오른쪽 위에 있는 점들입니다.

오른쪽 위: 발현이 크게 증가했고 통계적으로도 유의한 유전자
왼쪽 위: 발현이 크게 감소했고 통계적으로도 유의한 유전자
가운데 아래: 변화가 작거나 통계적으로 불확실한 유전자

화산 플롯은 결과를 빠르게 훑어보기에 좋지만, 그래프만 보고 생물학적 결론을 확정하면 안 됩니다. 유전자의 기능, 경로 분석, 반복 실험, 문헌 근거가 함께 필요합니다.

14. RNA-seq 분석 파이프라인은 단계별 품질 관리가 핵심입니다

RNA-seq 데이터 분석은 원시 FASTQ 파일에서 시작해 생물학적 해석으로 끝나는 긴 과정입니다. 각 단계에서 실수하면 뒤 결과가 흔들립니다.

기본 흐름은 다음과 같습니다.

품질 평가: FastQC 같은 도구로 read 품질, GC 함량, 어댑터 오염 등을 확인합니다.
트리밍과 필터링: 품질이 낮은 부분이나 어댑터 서열을 제거합니다.
정렬 또는 준정렬: STAR, HISAT2 같은 도구로 유전체에 정렬하거나, salmon, kallisto 같은 도구로 전사체 수준 정량화를 합니다.
카운트 생성: 각 유전자 또는 전사체에 read가 얼마나 붙었는지 계산합니다.
정규화: 샘플 간 비교가 가능하도록 보정합니다.
품질 확인: PCA, 클러스터링, 샘플 간 상관분석으로 이상 샘플과 배치 효과를 확인합니다.
차등 발현 분석: DESeq2, edgeR, limma-voom 같은 도구로 조건 간 발현 차이를 검정합니다.
시각화: 화산 플롯, 히트맵, PCA plot 등을 만듭니다.
생물학적 해석: ORA, GSEA, 네트워크 분석으로 유전자 목록의 의미를 해석합니다.

3장 선수지식에서 다룬 FASTQ, read, 정렬, SAM/BAM 개념이 여기서 다시 등장합니다. 다만 RNA-seq 정렬은 일반 DNA-seq보다 한 가지가 더 어렵습니다. RNA는 스플라이싱을 거치기 때문에, 하나의 read가 엑손과 엑손 사이를 걸쳐 있을 수 있습니다. 그래서 STAR나 HISAT2처럼 스플라이싱을 고려하는 정렬기가 필요합니다.

15. ORA와 GSEA는 유전자 목록의 생물학적 의미를 해석하는 방법입니다

차등 발현 분석을 하면 “유의하게 증가한 유전자 500개”, “감소한 유전자 300개” 같은 목록이 나올 수 있습니다. 그런데 유전자 이름 목록만 보면 생물학적 의미를 파악하기 어렵습니다. 그래서 경로 분석이 필요합니다.

ORA(Over-Representation Analysis)는 차등 발현 유전자 목록 안에 특정 기능이나 경로의 유전자가 우연보다 많이 들어 있는지 봅니다. 예를 들어 증가한 유전자 목록에 면역 반응 관련 유전자가 유난히 많다면, 해당 조건에서 면역 반응이 활성화되었다고 해석할 수 있습니다.

GSEA(Gene Set Enrichment Analysis)는 임계값으로 유전자 목록을 자르지 않고, 전체 유전자 순위를 사용합니다. 어떤 경로에 속한 유전자들이 전체적으로 위쪽에 몰려 있는지, 아래쪽에 몰려 있는지를 봅니다. 그래서 개별 유전자 하나하나가 강하게 유의하지 않아도, 경로 전체의 약한 변화가 일관되게 나타나는 경우를 포착할 수 있습니다.

5장 선수지식에서 경로 분석과 다중검정의 기본 감각을 다뤘습니다. 여기서는 차등 발현 분석 결과를 생물학적으로 해석하기 위해 ORA와 GSEA가 사용된다고 이해하면 됩니다.

15-1. FPKM과 TPM은 “길이와 총 read 수”를 보정하려는 계산입니다

RNA-seq에서 raw count는 유전자마다 읽힌 read의 수입니다. 하지만 raw count만으로는 공정한 비교가 어렵습니다. 이유는 두 가지입니다.

첫째, 긴 유전자는 read가 더 많이 붙을 기회가 있습니다. 둘째, 시퀀싱을 더 많이 한 샘플은 모든 유전자의 read 수가 전반적으로 커질 수 있습니다. 그래서 유전자 길이와 전체 read 수를 보정해야 합니다.

FPKM은 다음 감각으로 이해하면 됩니다.

FPKM ≈ read 수 ÷ 유전자 길이(kb) ÷ 전체 read 수(백만 단위)

예를 들어 어떤 유전자의 raw count가 100개이고, 유전자 길이가 2kb이며, 전체 mapped reads가 10 million이라면 다음처럼 계산합니다.

길이 보정: 100 ÷ 2 = 50
전체 read 수 보정: 50 ÷ 10 = 5
따라서 이 단순 예시의 FPKM은 5입니다.

TPM은 계산 순서가 조금 다릅니다.

각 유전자의 count를 길이로 나누어 RPK를 구합니다.
모든 유전자의 RPK 합을 구합니다.
각 유전자의 RPK가 전체 RPK에서 차지하는 비율에 1,000,000을 곱합니다.

비유하면 TPM은 전체 발현량 파이를 항상 100만 조각으로 고정한 뒤, 각 유전자가 몇 조각을 차지하는지 보는 방식입니다. 그래서 서로 다른 샘플끼리 발현 비율을 비교할 때 직관적으로 해석하기 좋습니다.

15-2. log2 fold change와 -log10(p-value)는 화산 플롯의 핵심 숫자입니다

차등 발현 분석에서는 조건 A와 조건 B의 발현량 차이를 봅니다. 이때 자주 나오는 값이 log2 fold change입니다.

실제 변화	fold change	log2 fold change
변화 없음	1배	0
2배 증가	2배	1
4배 증가	4배	2
절반 감소	1/2배	-1
1/4로 감소	1/4배	-2

화산 플롯의 x축은 보통 log2 fold change입니다. 오른쪽으로 갈수록 처리군에서 증가한 유전자, 왼쪽으로 갈수록 감소한 유전자에 가깝습니다.

화산 플롯의 y축은 보통 -log10(p-value)입니다. p-value가 작을수록 통계적으로 더 유의하므로, -log10을 취하면 더 위쪽에 표시됩니다.

p-value	-log10(p-value)	감각
0.1	1	약한 근거
0.01	2	더 강한 근거
0.001	3	매우 강한 근거

따라서 화산 플롯에서 오른쪽 위는 “많이 증가했고 통계적으로도 유의한 유전자”, 왼쪽 위는 “많이 감소했고 통계적으로도 유의한 유전자”로 해석합니다.

15-3. 평균과 분산이 너무 다르면 과대산포를 의심합니다

포아송 분포는 평균과 분산이 같다고 가정합니다. 예를 들어 평균 read count가 10이면 분산도 대략 10이라고 보는 식입니다. 하지만 실제 RNA-seq 데이터는 생물학적 차이, 실험 잡음, 샘플 차이 때문에 분산이 평균보다 훨씬 큰 경우가 많습니다. 이것을 과대산포(overdispersion)라고 합니다.

예를 들어 한 유전자의 평균 count가 10인데 분산이 100이라면, 포아송 분포만으로는 변동성을 설명하기 어렵습니다. 그래서 RNA-seq 차등 발현 분석에서는 음이항분포가 자주 사용됩니다.

초보 단계에서는 다음만 잡으면 됩니다.

RNA-seq count는 단순한 동전 던지기처럼 깔끔하게 흔들리지 않습니다. 실제 데이터는 평균보다 훨씬 더 크게 흔들릴 수 있고, 이 때문에 음이항분포와 분산 안정화가 필요합니다.

15-4. p-value와 FDR은 같은 말이 아닙니다

p-value는 하나의 검정에서 “우연만으로 이런 차이가 나올 가능성이 얼마나 작은가”를 보는 값입니다. 하지만 RNA-seq에서는 유전자 수천~수만 개를 동시에 검사합니다. 검사를 많이 하면 우연히 유의해 보이는 유전자도 늘어납니다.

FDR(False Discovery Rate)은 이런 다중검정 문제를 보정한 값입니다. 쉽게 말해 “유의하다고 고른 목록 안에 거짓 양성이 어느 정도 섞일 수 있는가”를 조절하려는 기준입니다.

예를 들어 유전자 20,000개를 검사하면 p-value 0.05 미만인 유전자가 우연히 꽤 나올 수 있습니다. 그래서 본편에서 차등 발현 결과를 볼 때는 p-value뿐 아니라 FDR 또는 adjusted p-value를 함께 봐야 합니다.

16. 9챕터를 읽기 전 최소 체크리스트

9장을 읽기 전에는 다음 정도를 알고 있으면 됩니다.

확인 질문	알고 있어야 할 감각
전사체는 무엇인가요?	특정 조건에서 만들어지는 RNA 전체 또는 RNA 발현 패턴입니다.
유전체와 전사체는 무엇이 다른가요?	유전체는 설계도 전체, 전사체는 현재 읽히는 부분입니다.
마이크로어레이는 무엇인가요?	미리 설계된 프로브에 RNA/cDNA가 붙는 정도로 발현량을 측정합니다.
qPCR은 무엇인가요?	특정 유전자의 발현량을 정밀하게 확인하는 기술입니다.
Bulk RNA-seq은 무엇인가요?	많은 세포의 RNA를 모아 평균 발현 패턴을 분석하는 방법입니다.
정규화는 왜 필요한가요?	유전자 길이, 전체 read 수, 기술적 차이를 보정해 공정하게 비교하기 위해서입니다.
FPKM과 TPM은 왜 나오나요?	read 카운트를 유전자 길이와 라이브러리 크기를 고려해 보정한 발현량 지표입니다.
과대산포는 무엇인가요?	실제 RNA-seq 데이터의 분산이 단순 포아송 가정보다 더 큰 현상입니다.
차등 발현 분석은 무엇인가요?	조건 사이에서 발현량이 유의하게 다른 유전자를 찾는 분석입니다.
화산 플롯은 무엇을 보여주나요?	발현 변화 크기와 통계적 유의성을 한눈에 보여줍니다.
log2 fold change는 무엇을 뜻하나요?	2배 증가면 1, 4배 증가면 2, 절반 감소면 -1처럼 변화 크기를 로그로 표현한 값입니다.
화산 플롯의 y축 -log10(p-value)는 어떻게 읽나요?	p-value가 작을수록 y값이 커져 더 위쪽에 표시됩니다.
FDR은 왜 보나요?	많은 유전자를 동시에 검정할 때 거짓 양성을 줄이기 위해 봅니다.