챕터 11 선수지식: 차원 축소와 데이터 분석에 들어가기 전 알아야 할 것

31 분 소요

1. 11챕터는 무엇을 하려는 장인가요?

11챕터는 “유전자 수만 개로 표현된 세포 데이터를 어떻게 사람이 볼 수 있는 그림과 그룹으로 바꿀 수 있을까요?”라는 질문을 다룹니다.

단일세포 RNA-seq 데이터에서는 세포 하나가 수만 개 유전자의 발현값을 가질 수 있습니다. 세포 하나를 하나의 점이라고 생각하면, 이 점은 2차원 종이에 찍히는 점이 아닙니다. 유전자 2만 개가 있다면, 이 세포는 2만 차원 공간의 점처럼 볼 수 있습니다.

문제는 사람은 2만 차원을 볼 수 없다는 것입니다. 우리는 보통 2차원 그림이나 3차원 공간까지만 직관적으로 이해합니다. 그래서 고차원 데이터를 더 낮은 차원으로 줄이는 방법이 필요합니다. 이를 차원 축소(dimensionality reduction)라고 합니다.

고차원 유전자 발현 데이터를 2차원 그림으로 줄이기

11장은 PCA, t-SNE, UMAP, 확산 지도, 클러스터링 같은 방법을 소개합니다. 이들은 모두 단일세포 데이터나 유전자 발현 데이터를 이해하기 쉽게 바꾸는 도구입니다.

2. 차원은 “한 대상을 설명하는 숫자의 개수”입니다

차원이라는 말이 어렵게 느껴질 수 있습니다. 하지만 데이터 관점에서는 간단합니다.

한 사람을 키 하나로만 설명하면 1차원 데이터입니다. 키와 몸무게 두 개로 설명하면 2차원 데이터입니다. 키, 몸무게, 나이, 혈압, 혈당으로 설명하면 5차원 데이터입니다.

단일세포 데이터에서는 세포 하나를 수천~수만 개 유전자의 발현량으로 설명합니다. 유전자 20,000개를 사용한다면 세포 하나는 20,000차원 데이터입니다.

예시	한 대상을 설명하는 숫자	차원
키만 기록한 학생	키	1차원
키와 몸무게를 기록한 학생	키, 몸무게	2차원
건강검진표	키, 몸무게, 혈압, 혈당, 콜레스테롤 등	수십 차원
단일세포 RNA-seq	유전자 수천~수만 개의 발현량	수천~수만 차원

고차원 데이터란 한 대상을 설명하는 숫자가 아주 많은 데이터를 뜻합니다.

3. 고차원 데이터는 사람이 직접 보기 어렵습니다

2차원 데이터는 산점도로 그릴 수 있습니다. 예를 들어 x축을 키, y축을 몸무게로 놓으면 각 사람을 점 하나로 표시할 수 있습니다. 3차원 데이터도 어느 정도는 3D 그래프로 볼 수 있습니다.

하지만 유전자 20,000개를 축으로 놓는 그래프는 그릴 수 없습니다. 사람이 눈으로 볼 방법이 없습니다.

그래서 차원 축소는 다음과 같은 일을 합니다.

수만 개 숫자 속에 숨어 있는 중요한 차이만 골라, 2차원 또는 3차원 그림으로 볼 수 있게 바꿉니다.

단, 중요한 점이 있습니다. 차원 축소는 정보를 줄이는 작업입니다. 정보를 줄이면 반드시 일부 정보는 사라지거나 왜곡됩니다. 그래서 차원 축소 그림은 강력하지만, 항상 조심해서 해석해야 합니다.

4. 차원의 저주는 “숫자가 너무 많아 오히려 구분이 어려워지는 문제”입니다

차원의 저주(curse of dimensionality)는 고차원 데이터에서 분석이 어려워지는 여러 문제를 가리키는 말입니다.

처음 들으면 이상하게 느껴질 수 있습니다. 숫자가 많으면 정보가 많아져서 더 좋은 것 아닌가요? 꼭 그렇지는 않습니다. 필요 없는 숫자, 잡음이 많은 숫자, 거의 변하지 않는 숫자가 너무 많으면 오히려 진짜 중요한 차이를 찾기 어려워집니다.

예를 들어 친구를 찾으려고 하는데 단서가 “키, 옷 색깔, 머리 모양” 정도라면 비교적 쉽게 찾을 수 있습니다. 그런데 누군가가 “눈썹 길이, 손톱 곡률, 신발끈 각도, 주머니 안 동전 개수, 어제 걸은 걸음 수…” 같은 수천 가지 정보를 한꺼번에 주면 오히려 핵심을 놓칠 수 있습니다.

고차원 공간에서는 거리 계산도 애매해집니다. 많은 차원에서 조금씩 차이가 쌓이면, 모든 점이 서로 비슷하게 멀어 보일 수 있습니다. 그러면 “가까운 세포끼리 묶는다”는 생각이 제대로 작동하기 어려워집니다.

5. 희소성은 데이터 표에 0이 아주 많은 상태입니다

희소성(sparsity)은 데이터에 0이나 빈 값이 많은 상태를 뜻합니다. 단일세포 RNA-seq 데이터는 보통 매우 희소합니다.

왜 0이 많을까요? 크게 두 이유가 있습니다.

첫째, 생물학적 이유입니다. 모든 세포가 모든 유전자를 켜고 있는 것은 아닙니다. 간세포는 간세포에 필요한 유전자를 많이 켜고, 면역세포는 면역 기능에 필요한 유전자를 많이 켭니다. 따라서 어떤 세포에서는 특정 유전자가 실제로 꺼져 있을 수 있습니다.

둘째, 기술적 이유입니다. 세포 하나에서 얻을 수 있는 RNA 양은 매우 적습니다. 실제로는 조금 발현되었더라도 실험 과정에서 포획되지 않거나 시퀀싱에서 충분히 읽히지 않으면 0처럼 보일 수 있습니다.

즉, 단일세포 데이터의 0은 두 종류일 수 있습니다.

0의 종류	의미
진짜 0	그 세포에서 해당 유전자가 실제로 거의 발현되지 않았습니다.
기술적 0	발현은 있었지만 실험이나 측정 한계 때문에 잡히지 않았습니다.

이 차이를 완벽히 구분하기는 어렵습니다. 그래서 단일세포 분석에서는 정규화, 품질관리, 차원 축소가 중요합니다.

6. 거리는 “두 세포가 얼마나 비슷한가”를 숫자로 재는 방법입니다

차원 축소와 클러스터링에서는 거리(distance) 개념이 자주 등장합니다. 거리는 두 데이터 점이 얼마나 떨어져 있는지를 나타냅니다.

2차원에서는 두 점 사이의 직선 거리를 쉽게 떠올릴 수 있습니다. 고차원에서도 비슷한 방식으로 거리를 계산할 수 있습니다. 유전자 발현 데이터에서는 두 세포의 발현값이 전반적으로 비슷하면 거리가 가깝고, 많이 다르면 거리가 멀다고 볼 수 있습니다.

하지만 앞에서 말했듯 고차원에서는 거리 해석이 어려워질 수 있습니다. 그래서 원본 수만 차원에서 바로 모든 것을 판단하기보다, 먼저 중요한 패턴을 뽑아 차원을 줄이고, 그 위에서 이웃 관계나 클러스터를 찾는 경우가 많습니다.

7. PCA는 가장 기본적인 차원 축소 방법입니다

PCA(Principal Component Analysis, 주성분 분석)는 차원 축소의 대표적인 기본 방법입니다. PCA는 데이터를 가장 잘 설명하는 방향을 찾습니다.

예를 들어 2차원 종이에 점들이 길쭉한 타원 모양으로 퍼져 있다고 생각해보겠습니다. 이때 점들이 가장 길게 퍼진 방향이 있습니다. PCA는 먼저 그 방향을 찾습니다. 그 방향을 첫 번째 주성분, 즉 PC1이라고 합니다. 그다음으로 중요한 방향이 PC2입니다.

PCA는 데이터가 가장 넓게 퍼진 방향을 찾습니다

단일세포 데이터에서 PCA는 수만 개 유전자 정보를 더 적은 수의 주성분으로 줄입니다. 예를 들어 유전자 20,000개 대신 PC 50개 정도로 세포를 표현할 수 있습니다. 이렇게 하면 잡음이 줄고 계산도 쉬워집니다.

처음에는 PCA를 이렇게 이해하면 됩니다.

PCA는 수많은 유전자 발현값을 직접 다루는 대신, 세포들 사이의 큰 차이를 설명하는 새로운 축 몇 개로 데이터를 다시 표현하는 방법입니다.

8. 분산은 “값들이 얼마나 퍼져 있는가”입니다

PCA를 이해하려면 분산(variance)이라는 말을 알아야 합니다. 분산은 값들이 평균 주변에 얼마나 퍼져 있는지를 나타내는 개념입니다.

예를 들어 세 학생의 시험 점수가 49, 50, 51점이면 평균은 50점이고 점수들이 평균 근처에 모여 있습니다. 분산이 작습니다. 반대로 10, 50, 90점이면 평균은 역시 50점이지만 점수들이 넓게 퍼져 있습니다. 분산이 큽니다.

PCA는 데이터의 분산이 큰 방향을 중요하게 봅니다. 왜냐하면 분산이 크다는 것은 그 방향으로 데이터 점들 사이에 차이가 많이 난다는 뜻이기 때문입니다. 단일세포 분석에서는 세포 유형이나 상태 차이가 큰 분산으로 나타날 수 있습니다.

하지만 분산이 크다고 무조건 생물학적으로 의미 있다는 뜻은 아닙니다. 실험 배치 효과나 품질 차이 때문에 분산이 커질 수도 있습니다. 그래서 PCA 결과는 항상 생물학적 맥락과 품질 정보를 함께 확인해야 합니다.

9. 공분산과 상관은 “함께 움직이는 정도”입니다

PCA에서는 공분산(covariance)이라는 개념도 등장합니다. 공분산은 두 변수가 함께 증가하거나 함께 감소하는 경향을 나타냅니다.

예를 들어 어떤 세포들에서 유전자 A가 높을 때 유전자 B도 높다면, 두 유전자는 함께 움직인다고 볼 수 있습니다. 같은 생물학적 경로에 속한 유전자들은 함께 발현되는 경우가 많습니다. 그래서 유전자 발현 데이터에는 서로 상관된 유전자들이 많이 있습니다.

PCA는 이런 함께 움직이는 패턴을 이용해 많은 유전자를 더 적은 축으로 압축합니다. 여러 유전자가 사실상 비슷한 정보를 담고 있다면, 그 정보를 하나의 주성분으로 요약할 수 있습니다.

10. 고유값과 고유벡터는 처음엔 깊게 파지 않아도 됩니다

11장에는 고유값(eigenvalue)과 고유벡터(eigenvector)가 등장합니다. 수학 배경이 없다면 여기서 막힐 수 있습니다. 하지만 처음 읽을 때는 깊은 계산보다 역할을 이해하는 것이 중요합니다.

PCA에서 고유벡터는 새로운 축의 방향을 뜻합니다. 고유값은 그 축이 데이터를 얼마나 많이 설명하는지를 나타냅니다.

쉽게 말하면 다음과 같습니다.

수학 용어	PCA에서의 쉬운 의미
고유벡터	데이터가 크게 퍼지는 방향입니다.
고유값	그 방향이 얼마나 중요한지를 나타내는 크기입니다.
주성분	고유벡터 방향으로 데이터를 다시 표현한 축입니다.

처음에는 공식을 완벽히 이해하지 않아도 됩니다. “PCA는 중요한 방향을 찾고, 그 방향의 중요도를 숫자로 매긴다” 정도면 원문을 읽는 데 도움이 됩니다.

11. 엘보우 플롯은 “어디까지 주성분을 쓸지” 보는 그림입니다

PCA를 하면 PC1, PC2, PC3처럼 여러 주성분이 나옵니다. 문제는 몇 개까지 사용할 것인가입니다.

너무 적게 사용하면 중요한 정보를 잃을 수 있습니다. 너무 많이 사용하면 잡음까지 가져갈 수 있고 계산도 복잡해집니다. 엘보우 플롯(elbow plot)은 주성분을 몇 개 쓸지 판단하는 데 도움을 주는 그림입니다.

엘보우는 팔꿈치라는 뜻입니다. 그래프에서 설명력이 처음에는 빠르게 떨어지다가 어느 순간부터 완만해지는 지점이 있습니다. 그 꺾이는 지점을 보고 “이 정도 개수까지 쓰면 중요한 정보는 대체로 담겼겠다”고 판단할 수 있습니다.

12. t-SNE는 가까운 점들을 보기 좋게 모아주는 시각화 방법입니다

t-SNE는 고차원에서 가까운 점들이 저차원 그림에서도 가깝게 보이도록 만드는 방법입니다. 단일세포 분석에서 세포 유형별 군집을 보기 좋게 보여주는 데 많이 사용됩니다.

다만 t-SNE는 시각화에 강한 도구입니다. 예쁘게 클러스터가 나뉘어 보일 수 있지만, 클러스터 사이의 거리를 그대로 해석하면 위험합니다. 예를 들어 그림에서 두 클러스터가 멀리 떨어져 있다고 해서 실제 생물학적으로 그만큼 멀다는 뜻은 아닐 수 있습니다.

t-SNE 그림은 “비슷한 세포들이 대략 어디에 모이는지” 보는 탐색용 지도에 가깝습니다.

13. UMAP은 지역 구조와 전체 구조의 균형을 보려는 방법입니다

UMAP도 단일세포 분석에서 매우 자주 쓰이는 차원 축소 방법입니다. UMAP은 각 세포의 가까운 이웃 관계를 바탕으로 저차원 지도를 만듭니다.

t-SNE와 비슷하게 세포 군집을 보기 좋게 보여주지만, 보통 계산이 빠르고 전체 구조를 어느 정도 더 잘 보존한다고 여겨집니다. 그래서 많은 단일세포 분석 파이프라인에서 UMAP이 기본 시각화 도구처럼 쓰입니다.

하지만 UMAP도 완벽한 지도는 아닙니다. 차원 축소 과정에서 왜곡이 생깁니다. UMAP 그림에서 클러스터 사이의 거리, 클러스터 크기, 모양을 너무 정량적으로 해석하면 안 됩니다.

t-SNE와 UMAP 그림을 읽을 때의 주의점

14. 확산 지도는 연속적인 변화와 경로를 볼 때 유용합니다

확산 지도(diffusion map)는 데이터 점들 사이의 연결과 이동 가능성을 이용해 구조를 파악하는 방법입니다. 단일세포 분석에서는 세포가 서서히 분화해가는 연속적인 경로를 표현할 때 유용합니다.

예를 들어 줄기세포가 점차 여러 세포 유형으로 갈라지는 상황을 생각해보겠습니다. 이때 세포들은 완전히 분리된 덩어리라기보다, 중간 상태를 거쳐 이어지는 흐름처럼 보일 수 있습니다. 확산 지도는 이런 연속적 변화와 궤적을 표현하는 데 도움이 됩니다.

10장에서 다룬 의사시간 분석과도 연결됩니다. 세포들이 어떤 경로를 따라 변화하는지 추정하려면, 세포 상태 사이의 부드러운 연결을 잘 포착하는 방법이 필요하기 때문입니다.

15. 클러스터링은 비슷한 세포끼리 묶는 작업입니다

차원 축소를 하고 나면 보통 클러스터링(clustering)을 합니다. 클러스터링은 데이터 점들을 비슷한 것끼리 그룹으로 묶는 방법입니다.

단일세포 분석에서 클러스터링은 세포 유형이나 세포 상태를 찾기 위해 사용됩니다. 발현 패턴이 비슷한 세포들이 한 클러스터로 묶이면, 그 클러스터가 하나의 세포 유형이거나 특정 상태의 세포 집단일 수 있습니다.

클러스터링은 비슷한 점을 묶는 작업입니다

대표적인 클러스터링 방식은 여러 가지가 있습니다.

방법	쉬운 설명	주의점
K-means	중심점을 정하고 가까운 점을 묶습니다.	클러스터 개수 k를 미리 정해야 합니다.
계층적 클러스터링	가까운 것끼리 나무처럼 차례로 묶습니다.	데이터가 크면 계산이 무거울 수 있습니다.
그래프 기반 클러스터링	세포를 이웃 관계 네트워크로 보고 촘촘한 구역을 찾습니다.	단일세포 분석에서 자주 쓰입니다.

단일세포 데이터에서는 그래프 기반 클러스터링이 많이 사용됩니다. 각 세포의 가까운 이웃을 연결해 그래프를 만들고, 그 그래프에서 서로 강하게 연결된 세포 집단을 찾는 방식입니다.

16. 클러스터는 “정답”이 아니라 분석자가 해석해야 하는 후보입니다

클러스터링 결과가 나왔다고 해서 그것이 곧 생물학적 정답은 아닙니다. 같은 데이터라도 사용한 방법, 매개변수, 정규화 방식, 선택한 유전자에 따라 클러스터 수와 모양이 달라질 수 있습니다.

예를 들어 해상도(resolution)를 높게 잡으면 하나의 큰 세포 집단이 여러 작은 클러스터로 쪼개질 수 있습니다. 해상도를 낮게 잡으면 서로 다른 세포 상태가 하나로 합쳐질 수 있습니다.

그래서 클러스터링 결과는 다음 질문으로 검토해야 합니다.

각 클러스터에 알려진 마커 유전자가 잘 나타나나요?
실험 조건이나 배치 효과 때문에 나뉜 것은 아닌가요?
너무 잘게 쪼개거나 너무 뭉뚱그린 것은 아닌가요?
생물학적으로 설명 가능한 차이인가요?

단일세포 분석에서 클러스터는 “발견된 진실”이라기보다, 생물학적 해석이 필요한 후보 그룹입니다.

17. 2차원 그림은 분석 결과가 아니라 탐색 지도입니다

11장을 읽을 때 가장 중요한 경고는 이것입니다.

UMAP이나 t-SNE 그림만 보고 강한 결론을 내리면 안 됩니다.

2차원 그림은 고차원 데이터를 사람이 볼 수 있게 줄인 것입니다. 이 과정에서 정보 손실과 왜곡이 반드시 생깁니다. 그래서 그림에서 가까워 보인다고 실제 원본 데이터에서도 항상 가까운 것은 아니고, 멀어 보인다고 정말 그만큼 다른 것도 아닙니다.

UMAP과 t-SNE는 데이터를 이해하기 위한 훌륭한 시작점입니다. 하지만 실제 결론은 원본 데이터, 통계 검정, 마커 유전자, 실험 설계, 생물학적 지식과 함께 내려야 합니다.

비유하면 UMAP은 지하철 노선도와 비슷합니다. 지하철 노선도는 역의 연결 관계를 이해하기 좋게 그린 그림입니다. 하지만 실제 지리적 거리와 방향을 완벽히 반영하지는 않습니다. 노선도를 보고 “이 역과 저 역은 그림에서 2cm 떨어졌으니 실제 거리도 가깝다”고 말하면 안 되는 것과 같습니다.

17-1. 본편의 어려운 수식은 “무엇을 재는가”부터 잡으면 됩니다

11장 본편에는 KL 발산, cross entropy, kernel, graph Laplacian 같은 말이 나옵니다. 이 수식을 처음부터 전부 계산할 필요는 없습니다. 다만 각각이 어떤 질문에 답하는지는 알아야 합니다.

용어	초보자용 의미	어디에 연결되나요?
Gaussian kernel	가까운 점에는 큰 점수, 먼 점에는 작은 점수를 주는 함수	거리 기반 유사도 계산
KL divergence	두 확률분포가 얼마나 다른지 재는 값	t-SNE에서 원래 이웃관계와 그림 속 이웃관계 비교
Cross entropy	예측한 분포가 실제 분포와 얼마나 어긋나는지 보는 값	UMAP의 최적화 직관
Graph Laplacian	점들의 연결 관계를 수학적으로 표현한 구조	네트워크 기반 차원 축소와 클러스터링

핵심은 “점 사이 거리를 계산한다 → 가까운 이웃 관계를 만든다 → 낮은 차원 그림에서도 그 관계가 최대한 유지되게 조정한다”는 흐름입니다.

17-2. PCA는 네 단계를 거치는 기본 절차로 이해하면 됩니다

PCA는 단순히 그림을 예쁘게 만드는 도구가 아닙니다. 데이터가 가장 많이 퍼진 방향을 찾아 축을 새로 잡는 방법입니다.

평균 중심화: 각 변수의 평균을 빼서 중심을 맞춥니다.
공분산 계산: 변수들이 함께 어떻게 움직이는지 봅니다.
고유벡터와 고유값 찾기: 데이터가 가장 많이 퍼진 방향과 그 크기를 찾습니다.
설명분산이 큰 축 선택: 정보를 많이 담은 주성분부터 사용합니다.

엘보우 플롯은 몇 개의 주성분을 쓸지 판단할 때 사용합니다. 처음 몇 개 주성분에서 설명분산이 크게 늘다가 이후 완만해지는 지점을 찾는 방식입니다.

17-3. K-means와 그래프 클러스터링은 묶는 기준이 다릅니다

K-means는 미리 정한 K개의 중심점을 기준으로 데이터를 묶습니다. 각 점은 가장 가까운 중심에 배정되고, 중심은 배정된 점들의 평균 위치로 다시 이동합니다. 이 과정을 반복하면서 군집을 만듭니다.

반면 Louvain이나 Leiden 같은 그래프 기반 클러스터링은 점들을 선으로 연결한 네트워크를 만든 뒤, 연결이 촘촘한 덩어리를 찾습니다. 단일세포 데이터에서는 보통 KNN 그래프를 만든 뒤 이런 방식으로 세포군을 찾습니다.

초보 단계에서는 다음처럼 구분하면 됩니다.

방법	기준	주의점
K-means	중심점과의 거리	K를 미리 정해야 합니다.
Louvain/Leiden	이웃 그래프의 연결 밀도	해상도 파라미터에 따라 군집 수가 달라질 수 있습니다.

어떤 방법이든 클러스터 번호 자체가 생물학적 정답은 아닙니다. 마커 유전자, 실험 맥락, 추가 검증을 통해 세포 유형이나 상태로 해석해야 합니다.

18. 11챕터를 읽기 전 최소 체크리스트

확인 질문	알고 있어야 할 감각
차원이란 무엇인가요?	한 대상을 설명하는 숫자의 개수입니다.
단일세포 데이터가 고차원인 이유는 무엇인가요?	세포 하나가 수천~수만 개 유전자 발현값으로 표현되기 때문입니다.
차원 축소는 왜 하나요?	중요한 패턴만 남겨 사람이 보고 계산하기 쉽게 만들기 위해 합니다.
PCA는 무엇을 하나요?	데이터가 크게 퍼지는 중요한 방향을 찾아 새로운 축으로 요약합니다.
t-SNE와 UMAP은 어떻게 써야 하나요?	세포 군집을 탐색하는 시각화 도구로 쓰되, 거리와 크기를 과해석하면 안 됩니다.
클러스터링은 무엇인가요?	비슷한 데이터 점, 즉 비슷한 발현 패턴의 세포를 묶는 작업입니다.
KL divergence는 어떤 감각으로 이해하나요?	원래 이웃관계와 저차원 그림의 이웃관계가 얼마나 다른지 보는 값입니다.
PCA는 어떤 절차로 진행되나요?	평균 중심화, 공분산 계산, 고유값·고유벡터 확인, 설명분산 큰 축 선택의 흐름입니다.
K-means와 그래프 클러스터링은 어떻게 다른가요?	K-means는 중심과 거리, 그래프 클러스터링은 이웃 연결 밀도를 기준으로 묶습니다.
저차원 그림은 어떻게 해석해야 하나요?	탐색 지도이며, 생물학적 결론에는 마커와 통계 검증이 필요합니다.