챕터 10 선수지식: 단일 세포 전사체학에 들어가기 전 알아야 할 것

35 분 소요

1. 10챕터는 무엇을 하려는 장인가요?

10챕터는 “조직 전체를 한꺼번에 평균내지 말고, 세포 하나하나를 따로 보면 무엇이 달라질까요?”라는 질문을 다룹니다.

앞선 9장 전사체학에서는 RNA-seq를 통해 어떤 유전자가 얼마나 발현되는지 측정한다고 배웠습니다. 그런데 전통적인 RNA-seq, 즉 벌크 RNA-seq는 많은 세포를 한꺼번에 섞어서 RNA를 추출합니다. 그러면 결과는 여러 세포의 평균값이 됩니다.

예를 들어 한 반에 학생 30명이 있다고 해보겠습니다. 반 평균 키가 170cm라고 해서 모든 학생이 170cm인 것은 아닙니다. 어떤 학생은 185cm이고, 어떤 학생은 155cm일 수 있습니다. 평균은 전체 분위기를 알려주지만, 개인별 차이를 지워버립니다.

벌크 RNA-seq도 비슷합니다. 조직 전체에서 어떤 유전자가 많이 발현된다는 사실은 알 수 있지만, 그 발현이 어떤 세포에서 나온 것인지는 알기 어렵습니다. 특히 희귀한 세포 유형이 있거나, 암 조직처럼 서로 다른 상태의 세포가 뒤섞여 있으면 평균값만으로는 중요한 차이가 사라질 수 있습니다.

벌크 RNA-seq와 단일세포 RNA-seq의 차이

단일세포 RNA 시퀀싱(single-cell RNA sequencing, scRNA-seq)은 이 문제를 해결하려는 기술입니다. 세포 하나하나를 따로 구분하고, 각 세포에서 어떤 유전자가 얼마나 발현되었는지를 측정합니다.

그래서 10장의 기본 질문은 다음과 같습니다.

조직 전체의 평균이 아니라, 세포 하나하나의 개성을 보면 생명현상을 더 정확히 이해할 수 있을까요?

답은 “그렇습니다”에 가깝습니다. 단일세포 분석을 하면 같은 조직 안에서도 여러 세포 유형을 구분할 수 있고, 희귀 세포를 찾을 수 있으며, 세포가 어떤 방향으로 분화하고 있는지도 추정할 수 있습니다.

2. “세포 하나하나가 데이터 한 줄”이라는 감각이 필요합니다

단일세포 전사체학을 처음 배울 때 가장 중요한 사고방식은 다음입니다.

세포 하나는 데이터 표의 한 행이고, 유전자 하나는 데이터 표의 한 열입니다.

예를 들어 세포 5개와 유전자 4개만 있다고 가정하면, 데이터는 다음처럼 생겼다고 볼 수 있습니다.

세포	유전자 A	유전자 B	유전자 C	유전자 D
세포 1	10	0	3	1
세포 2	12	1	2	0
세포 3	0	15	1	2
세포 4	1	17	0	1
세포 5	3	2	20	0

이 표에서 숫자는 “그 세포에서 그 유전자의 RNA가 얼마나 많이 관측되었는가”를 뜻합니다. 실제 단일세포 데이터에서는 세포가 수천~수백만 개일 수 있고, 유전자도 수만 개에 이릅니다.

단일세포 분석의 큰 흐름

즉, 단일세포 분석은 생물학 실험이면서 동시에 거대한 표를 다루는 데이터 분석입니다. 그래서 10장을 읽을 때는 생물학 용어뿐 아니라 데이터 표, 행렬, 차원 축소, 클러스터링 같은 컴퓨터·수학적 개념도 함께 등장합니다.

이때 너무 겁먹을 필요는 없습니다. 처음에는 이렇게만 생각해도 충분합니다.

단일세포 데이터는 “각 세포가 어떤 유전자 조합을 켜고 있는지”를 적어둔 큰 표입니다.

3. 벌크 분석은 평균을 보고, 단일세포 분석은 분포를 봅니다

벌크 RNA-seq와 단일세포 RNA-seq의 차이를 평균과 분포로 이해하면 좋습니다.

벌크 분석은 여러 세포의 RNA를 섞어서 평균 발현량을 봅니다. 예를 들어 어떤 유전자의 벌크 발현량이 50이라고 합시다. 이 값은 여러 상황에서 나올 수 있습니다.

첫 번째 상황은 모든 세포가 비슷하게 50씩 발현하는 경우입니다. 두 번째 상황은 절반의 세포는 100씩 발현하고, 나머지 절반은 0에 가까운 경우입니다. 벌크 평균만 보면 둘 다 50처럼 보일 수 있습니다.

하지만 생물학적으로는 완전히 다릅니다. 모든 세포가 조금씩 발현하는 것과 특정 세포 집단만 강하게 발현하는 것은 의미가 다릅니다. 질병 해석에서도 차이가 큽니다.

단일세포 분석은 이 차이를 볼 수 있게 해줍니다. 그래서 단일세포 분석에서 중요한 것은 평균 하나가 아니라 세포들 사이의 분포입니다.

단일세포 분석은 “이 유전자가 평균적으로 얼마나 높나요?”뿐 아니라 “어떤 세포들이 이 유전자를 높게 켜고 있나요?”를 묻습니다.

4. 세포 이질성은 “겉으로 비슷해 보여도 속은 다를 수 있음”을 뜻합니다

세포 이질성(cellular heterogeneity)은 한 집단 안의 세포들이 서로 다르다는 뜻입니다. 이 말은 단순하지만 매우 중요합니다.

예를 들어 종양 조직을 생각해보겠습니다. 현미경으로 보면 모두 암세포처럼 보일 수 있습니다. 하지만 단일세포 전사체 분석을 해보면 어떤 암세포는 빠르게 증식하는 상태이고, 어떤 암세포는 약물 저항성 관련 유전자를 많이 켜고 있으며, 어떤 암세포는 면역세포를 피하는 데 유리한 유전자 발현 패턴을 보일 수 있습니다.

즉, “암세포”라는 큰 이름 아래에도 여러 하위 집단이 존재할 수 있습니다. 이 차이는 치료 반응, 전이 가능성, 재발 위험과 연결될 수 있습니다.

면역세포도 마찬가지입니다. T세포라고 해서 모두 같은 T세포가 아닙니다. 어떤 T세포는 활발히 싸우고 있고, 어떤 T세포는 지쳐 있고, 어떤 T세포는 조절 기능을 수행합니다. 단일세포 분석은 이런 미세한 상태 차이를 데이터로 드러냅니다.

5. 세포 분화와 의사시간은 “세포의 성장 경로를 추정하는 방법”입니다

세포 분화(differentiation)는 미성숙한 세포가 특정 기능을 가진 세포로 바뀌어 가는 과정입니다. 줄기세포가 신경세포, 근육세포, 혈액세포 같은 특화된 세포가 되는 과정이 대표적인 예입니다.

여기서 어려운 점이 있습니다. 실제 생명체 안에서 세포 하나가 시간에 따라 어떻게 바뀌는지 계속 따라가기는 쉽지 않습니다. 그래서 단일세포 분석에서는 서로 다른 상태의 세포들을 한 번에 측정한 뒤, 발현 패턴이 비슷한 정도를 이용해 “아마 이런 순서로 변화했을 것이다”라고 추정합니다.

이때 등장하는 개념이 의사시간(pseudotime)입니다.

의사시간은 실제 시계 시간이 아닙니다. 실험을 시작하고 1시간, 2시간이 지났다는 의미가 아닙니다. 대신 세포들의 발현 상태를 비교해서 “이 세포는 분화 초기에 가깝고, 저 세포는 중간 단계이며, 저쪽 세포는 더 성숙한 단계에 가깝다”고 배열한 계산적 시간입니다.

비유하면, 여러 나이대 사람들의 사진을 한꺼번에 섞어놓고 얼굴과 몸의 특징을 보고 어린아이, 청소년, 성인, 노년 순서로 정렬하는 것과 비슷합니다. 실제로 한 사람을 평생 따라간 것은 아니지만, 상태 차이를 바탕으로 발달 순서를 추정할 수 있습니다.

6. RNA velocity는 “세포가 어느 방향으로 가는 중인지”를 보려는 시도입니다

RNA velocity는 단일세포 분석에서 조금 더 진보된 개념입니다. 처음에는 어렵게 느껴질 수 있지만, 핵심은 간단합니다.

유전자가 발현되면 먼저 미성숙 RNA가 만들어지고, 이후 가공을 거쳐 성숙 RNA가 됩니다. 9장에서 스플라이싱을 다루었다면, 여기서 미성숙 RNA는 아직 스플라이싱이 끝나지 않은 RNA, 성숙 RNA는 스플라이싱이 끝난 RNA라고 생각하면 됩니다.

RNA velocity는 세포 안에서 미성숙 RNA와 성숙 RNA의 비율을 보고, 앞으로 그 유전자의 발현이 증가할지 감소할지 추정합니다. 이를 여러 유전자에 대해 종합하면, 어떤 세포가 어느 상태로 이동하는 중인지 방향을 예측할 수 있습니다.

의사시간이 “세포들을 순서대로 놓아보는 방법”이라면, RNA velocity는 “세포가 어느 방향으로 움직이는 중인지 화살표를 붙이는 방법”에 가깝습니다.

이 개념은 세포 운명 결정, 분화 경로, 질병 진행 방향을 해석할 때 중요합니다.

7. 유전자 발현은 생각보다 들쭉날쭉합니다

단일세포 수준에서는 유전자 발현이 매우 불규칙하게 보일 수 있습니다. 벌크 분석에서는 많은 세포의 평균을 보기 때문에 매끄럽게 보이지만, 세포 하나하나를 보면 어떤 세포에서는 특정 유전자가 켜져 있고, 다른 세포에서는 거의 꺼져 있는 식의 차이가 나타납니다.

이를 확률적 발현(stochastic expression)이라고 합니다. 여기서 확률적이라는 말은 “완전히 아무렇게나”라는 뜻이 아니라, 분자 수준의 작은 사건들이 확률적으로 일어나기 때문에 세포마다 발현량이 달라질 수 있다는 뜻입니다.

특히 유전자 발현은 버스트(burst)처럼 일어날 수 있습니다. 수도꼭지를 아주 조금씩 계속 틀어놓는 것이 아니라, 잠깐 확 열렸다가 닫히는 식으로 RNA가 한꺼번에 만들어질 수 있다는 뜻입니다.

그래서 단일세포 데이터에는 0이 많습니다. 어떤 유전자는 실제로 꺼져 있어서 0일 수 있고, 어떤 유전자는 아주 조금 발현되었지만 기술적으로 잡히지 않아서 0처럼 보일 수도 있습니다. 이 차이는 11장에서 말하는 희소성 문제와 연결됩니다.

8. 플로우 사이토메트리는 세포를 하나씩 지나가게 하며 측정하는 기술입니다

플로우 사이토메트리(flow cytometry)는 세포를 액체 흐름 속에서 한 줄로 지나가게 하면서 레이저로 측정하는 기술입니다. 단일세포 RNA-seq 자체는 아니지만, 단일세포 분석의 중요한 배경 기술입니다.

세포가 레이저를 지나가면 빛이 여러 방향으로 흩어집니다. 이때 전방 산란(Forward Scatter, FSC)은 대체로 세포의 크기와 관련이 있고, 측방 산란(Side Scatter, SSC)은 세포 내부의 복잡도나 과립성 정도와 관련이 있습니다.

또한 세포에 특정 형광 표지를 붙이면 어떤 단백질을 가진 세포인지 구분할 수 있습니다. 예를 들어 특정 면역세포 표면 단백질에 형광 항체를 붙이면, 그 단백질을 가진 세포만 밝게 보입니다.

이 기술을 이용하면 세포 집단을 구분하거나 특정 세포를 골라낼 수 있습니다.

9. FACS는 원하는 세포를 실제로 골라내는 기술입니다

FACS(Fluorescence-Activated Cell Sorting)는 플로우 사이토메트리의 확장판입니다. 단순히 세포를 측정하는 데서 끝나지 않고, 형광 신호에 따라 원하는 세포를 물리적으로 분리합니다.

예를 들어 어떤 세포가 초록색 형광을 강하게 내면 A통으로 보내고, 빨간색 형광을 내면 B통으로 보내는 방식입니다. 이렇게 하면 특정 세포 유형만 모아서 후속 실험을 할 수 있습니다.

단일세포 전사체학에서는 FACS로 관심 세포를 미리 분리한 뒤 scRNA-seq를 수행할 수도 있습니다. 예를 들어 면역세포 중 특정 마커를 가진 세포만 골라 분석하는 식입니다.

여기서 게이팅(gating)이라는 말도 자주 나옵니다. 게이팅은 데이터에서 조건에 맞는 세포만 선택하는 과정입니다. “크기가 너무 작은 것은 세포 파편일 수 있으니 제외한다”, “죽은 세포는 제외한다”, “특정 형광 신호가 강한 세포만 선택한다”처럼 단계적으로 문을 통과시키는 방식입니다.

게이팅과 클러스터링의 감각

10. 미세유체학은 아주 작은 물길에서 세포를 다루는 기술입니다

미세유체학(microfluidics)은 아주 작은 채널 안에서 액체의 흐름을 제어하는 기술입니다. “마이크로미터 크기의 수도관”을 떠올리면 됩니다.

큰 강이나 하수도에서는 물이 소용돌이치며 복잡하게 섞일 수 있습니다. 하지만 아주 작은 채널에서는 점성의 영향이 커서 흐름이 비교적 가지런해집니다. 이런 흐름을 층류(laminar flow)라고 합니다.

단일세포 RNA-seq에서는 미세유체학을 이용해 세포 하나와 바코드 비드 하나를 작은 액적(droplet) 안에 함께 넣는 방식이 널리 사용됩니다. 액적은 작은 물방울 같은 공간입니다. 이 작은 물방울 안에서 세포가 터지고, RNA가 바코드 비드에 붙습니다.

11. 세포 바코드와 UMI는 단일세포 데이터의 핵심 표지입니다

Drop-seq나 10x Genomics 같은 액적 기반 단일세포 기술에서는 바코드가 매우 중요합니다.

세포 바코드(cell barcode)는 “이 RNA가 어느 세포에서 왔는지”를 알려주는 표지입니다. 수천 개의 세포가 한꺼번에 섞여 시퀀싱되더라도, 각 RNA 조각에 세포 바코드가 붙어 있으면 나중에 다시 세포별로 분류할 수 있습니다.

UMI(Unique Molecular Identifier)는 “이 RNA 분자가 원래 하나였는지, PCR로 복사되어 여러 개처럼 보이는지”를 구분하는 표지입니다. PCR은 DNA를 증폭하는 과정입니다. 증폭 과정에서 원래 RNA 하나에서 나온 cDNA가 여러 번 복사되면 실제보다 발현량이 많아 보일 수 있습니다. UMI는 이런 중복을 보정하는 데 도움을 줍니다.

세포 바코드와 UMI의 역할

처음에는 이렇게 기억하면 됩니다.

표지	알려주는 것	쉬운 비유
세포 바코드	어느 세포에서 온 RNA인가	택배의 발신자 주소입니다.
UMI	원래 몇 개의 RNA 분자였는가	같은 문서를 여러 번 복사했는지 확인하는 일련번호입니다.
유전자 서열	어떤 유전자에서 온 RNA인가	택배 상자 안의 실제 내용물입니다.

12. 단일세포 데이터 분석은 “정리 → 축소 → 묶기 → 이름 붙이기” 흐름입니다

단일세포 데이터 분석은 보통 다음 흐름으로 진행됩니다.

원시 시퀀싱 데이터를 읽습니다.
세포 바코드와 UMI를 이용해 세포별·유전자별 카운트 행렬을 만듭니다.
품질이 낮은 세포를 제거합니다.
세포마다 총 RNA 양이 다르므로 정규화합니다.
변동이 큰 유전자를 고릅니다.
PCA 같은 방법으로 차원을 줄입니다.
UMAP이나 t-SNE로 2차원 그림을 만듭니다.
비슷한 세포끼리 클러스터링합니다.
각 클러스터의 마커 유전자를 보고 세포 유형 이름을 붙입니다.

여기서 10장은 단일세포 기술의 전체 흐름을 소개하고, 11장은 차원 축소와 클러스터링의 수학적·데이터 분석적 배경을 더 자세히 다룹니다.

13. 세포 유형 이름은 마커 유전자로 추정합니다

단일세포 분석에서 클러스터가 보이면 바로 “이건 T세포입니다”라고 알 수 있는 것은 아닙니다. 먼저 그 클러스터에서 어떤 유전자가 높게 발현되는지 봐야 합니다.

특정 세포 유형에서 대표적으로 발현되는 유전자를 마커 유전자(marker gene)라고 합니다. 예를 들어 어떤 클러스터에서 T세포 관련 마커가 높게 나오면 그 클러스터를 T세포로 추정할 수 있습니다. B세포 마커가 높으면 B세포일 가능성이 큽니다.

다만 이것은 단순한 이름 붙이기가 아닙니다. 마커 유전자는 조직, 질병, 실험 조건에 따라 해석이 달라질 수 있습니다. 그래서 자동 분석 결과만 믿기보다 생물학적 지식으로 검토해야 합니다.

14. 디콘볼루션은 “섞인 신호를 다시 풀어내는 일”입니다

디콘볼루션(deconvolution)은 여러 성분이 섞인 데이터를 보고, 각 성분이 얼마나 들어 있는지 추정하는 방법입니다.

예를 들어 과일주스가 있다고 합시다. 겉으로 보기에는 하나의 주스지만, 실제로는 오렌지 50%, 사과 30%, 당근 20%가 섞였을 수 있습니다. 디콘볼루션은 맛과 성분 정보를 이용해 “이 주스 안에 무엇이 얼마나 섞였는가”를 추정하는 작업입니다.

생명정보학에서는 벌크 RNA-seq 데이터나 공간전사체학의 스팟 데이터에서 세포 유형 비율을 추정할 때 디콘볼루션을 사용합니다. 단일세포 데이터는 이때 참고자료로 쓰일 수 있습니다. 즉, 단일세포 데이터에서 각 세포 유형의 발현 특징을 알고 있으면, 섞인 데이터 속에서 각 세포 유형의 비율을 추정할 수 있습니다.

이 개념은 12장의 공간체학에서도 다시 등장합니다.

14-1. 단일세포 데이터는 품질 낮은 세포를 먼저 걸러야 합니다

단일세포 RNA-seq은 세포 하나하나를 보는 강력한 기술이지만, 모든 세포 데이터가 믿을 만한 것은 아닙니다. 죽어가는 세포, 깨진 세포, 두 세포가 한 방울에 같이 들어간 경우, RNA가 너무 적게 잡힌 경우가 섞일 수 있습니다. 그래서 본편에서는 품질 관리(QC)가 중요하게 등장합니다.

QC 지표	쉬운 의미	주의할 해석
검출 유전자 수	한 세포에서 관찰된 유전자 종류 수	너무 적으면 품질 낮은 세포일 수 있습니다. 너무 많으면 doublet일 수 있습니다.
UMI count	중복 제거 후 RNA 분자 수의 대략적 크기	너무 낮으면 RNA가 거의 잡히지 않은 세포일 수 있습니다.
미토콘드리아 RNA 비율	미토콘드리아 유전자 read 비율	너무 높으면 손상되었거나 죽어가는 세포일 수 있습니다.
doublet	두 세포가 하나처럼 잡힌 오류	두 세포 유형의 마커가 동시에 보일 수 있습니다.

UMI는 PCR 복제 때문에 생기는 중복을 줄이기 위한 표지입니다. 같은 세포 barcode, 같은 유전자, 같은 UMI를 가진 read가 여러 개 있어도 원래 RNA 분자는 하나로 세는 것이 기본 감각입니다.

같은 영수증을 다섯 번 복사해도 물건을 다섯 번 산 것은 아닙니다. UMI는 복사본과 원본을 구분하는 일련번호에 가깝습니다.

14-2. FACS는 빛 산란과 형광으로 세포를 고르는 기술입니다

플로우 사이토메트리와 FACS를 이해하려면 다음 세 가지 신호를 알면 됩니다.

신호	주로 반영하는 것	쉬운 감각
FSC	세포 크기	앞으로 얼마나 빛이 흩어지는가
SSC	세포 내부 복잡도	옆으로 얼마나 빛이 흩어지는가
형광 신호	특정 표지자 존재 여부	항체에 붙은 형광이 얼마나 빛나는가

FACS에서는 이 신호를 이용해 원하는 세포군에 문을 치듯이 범위를 정합니다. 이것을 gating이라고 합니다. 예를 들어 먼저 너무 작은 찌꺼기를 제외하고, 그다음 죽은 세포를 제외하고, 마지막으로 특정 표지자가 높은 세포만 골라낼 수 있습니다.

즉, FACS는 단순한 관찰이 아니라 조건에 맞는 세포를 실제로 분리하는 기술입니다.

14-3. 디콘볼루션과 NMF는 섞인 신호를 푸는 계산 방식입니다

본편에는 벌크 데이터에서 세포 구성 비율을 추정하는 디콘볼루션 수식이 나옵니다.

Y = X × β + ε

이 식은 어렵게 보이지만 의미는 단순합니다.

기호	쉬운 의미
Y	섞인 조직에서 관찰한 발현값
X	세포 유형별 기준 발현표
β	각 세포 유형이 얼마나 섞였는지 나타내는 비율
ε	설명되지 않는 오차

비유하면 섞인 주스의 맛(Y)을 보고, 사과·오렌지·포도 원액의 맛(X)을 기준으로, 각 원액이 몇 퍼센트 들어갔는지(β)를 거꾸로 추정하는 것입니다.

NMF는 V = W × H처럼 복잡한 표를 몇 개의 숨은 패턴으로 나누는 방식입니다. 단일세포나 벌크 데이터에서 “몇 가지 대표 발현 프로그램이 섞여 있는가”를 해석할 때 쓸 수 있습니다. 여기서 중요한 것은 수식을 외우는 것이 아니라, 큰 행렬을 작은 패턴들의 조합으로 설명하려는 사고방식입니다.

15. 10챕터를 읽기 전 최소 체크리스트

확인 질문	알고 있어야 할 감각
벌크 RNA-seq와 단일세포 RNA-seq는 무엇이 다른가요?	벌크는 평균을 보고, 단일세포는 세포 하나하나의 차이를 봅니다.
세포 이질성이란 무엇인가요?	같은 조직 안의 세포들이 서로 다른 상태와 기능을 가질 수 있다는 뜻입니다.
의사시간은 실제 시간인가요?	아닙니다. 발현 패턴을 바탕으로 세포 상태의 순서를 추정한 계산적 시간입니다.
RNA velocity는 무엇을 보려는 방법인가요?	세포가 앞으로 어떤 상태로 변할지 방향을 추정하려는 방법입니다.
세포 바코드와 UMI는 왜 필요한가요?	세포 출처와 원래 RNA 분자 수를 구분하기 위해 필요합니다.
클러스터링은 왜 하나요?	발현 패턴이 비슷한 세포끼리 묶어 세포 유형이나 상태를 찾기 위해 합니다.
단일세포 QC에서는 무엇을 보나요?	검출 유전자 수, UMI count, 미토콘드리아 RNA 비율, doublet 여부를 확인합니다.
UMI는 왜 필요한가요?	PCR 복제본을 원래 RNA 분자 하나로 중복 제거하기 위해 필요합니다.
FACS의 FSC와 SSC는 무엇을 반영하나요?	FSC는 주로 세포 크기, SSC는 세포 내부 복잡도를 반영합니다.
디콘볼루션은 무엇인가요?	섞인 벌크 신호에서 세포 유형 비율이나 숨은 패턴을 추정하는 분석입니다.