챕터 26 선수지식: Deconvolution과 유전자 조절 네트워크 분석에 들어가기 전 알아야 할 것

34 분 소요

1. 26챕터는 무엇을 하려는 장인가요?

26챕터는 크게 두 가지를 다룹니다.

첫째, Deconvolution입니다. 이것은 bulk RNA-seq 데이터에 여러 세포 유형이 얼마나 섞여 있는지 추정하는 방법입니다. bulk RNA-seq는 조직 전체의 평균 발현량을 측정합니다. 하지만 조직은 보통 여러 세포 유형이 섞여 있습니다. 근육 조직에도 근육세포만 있는 것이 아니라 혈관내피세포, 면역세포, 섬유아세포 등 여러 세포가 함께 있습니다. bulk RNA-seq는 이 모든 세포의 평균 신호를 보여주기 때문에, 각 세포 유형의 비율을 직접 알기 어렵습니다.

둘째, 유전자 조절 네트워크, 즉 GRN 분석입니다. GRN은 유전자들 사이의 관계를 네트워크로 표현합니다. 어떤 유전자가 다른 유전자의 발현을 조절하는지, 어떤 유전자가 네트워크의 중심 역할을 하는지 보는 것입니다.

Deconvolution은 섞인 주스를 다시 추정하는 일입니다

26장은 25장의 단일세포 분석 결과를 한 단계 더 확장합니다. 25장에서는 세포 하나하나를 보고 세포 유형을 나눴습니다. 26장에서는 그 세포 유형 정보를 이용해 bulk 데이터의 구성 비율을 추정하거나, 특정 세포 유형 안에서 유전자들이 어떻게 함께 움직이는지를 봅니다.

한 문장으로 정리하면 다음과 같습니다.

26장은 세포 유형 정보를 이용해 섞인 조직 데이터를 해석하고, 유전자들 사이의 관계망을 찾는 장입니다.

2. Deconvolution은 왜 필요한가요?

bulk RNA-seq는 한 샘플 전체의 평균 발현량을 보여줍니다. 예를 들어 어떤 조직 샘플에서 염증 관련 유전자가 높게 발현되었다고 합시다. 이것은 두 가지 이유일 수 있습니다.

첫째, 샘플 안의 모든 세포가 염증 관련 유전자를 더 많이 발현했을 수 있습니다.

둘째, 염증 관련 유전자를 많이 발현하는 면역세포의 비율이 늘어났을 수 있습니다.

bulk RNA-seq만 보면 이 둘을 구분하기 어렵습니다. Deconvolution은 이 문제를 풀려고 합니다. “이 bulk 신호는 여러 세포 유형의 발현 신호가 섞인 결과다”라고 보고, 각 세포 유형이 얼마나 들어 있는지 거꾸로 추정합니다.

비유하면 혼합 주스를 마시고 사과, 오렌지, 당근이 각각 몇 퍼센트 들어갔는지 추정하는 것과 비슷합니다. 단, 각 재료의 맛 특징을 어느 정도 알고 있어야 합니다. 생명정보학에서는 이 “맛 특징”이 세포 유형별 유전자 발현 시그니처입니다.

그래서 Deconvolution에는 보통 두 종류의 정보가 필요합니다.

관측된 bulk 발현 데이터
세포 유형별 발현 시그니처

세포 유형별 시그니처는 scRNA-seq 데이터에서 얻을 수 있습니다. 그래서 단일세포 데이터와 bulk 데이터는 서로 경쟁하는 관계가 아니라, 서로 보완하는 관계입니다.

3. `M = W × H`는 어떻게 이해하면 되나요?

원문에서는 Deconvolution 문제를 M = W × H로 표현합니다. 수식이 나오면 겁먹기 쉽지만, 직관은 단순합니다.

M = W × H의 직관

M은 관측된 bulk RNA-seq 발현 행렬입니다. 행은 샘플이고, 열은 유전자입니다. 즉 “각 샘플에서 각 유전자가 얼마나 발현되었는가”를 담은 표입니다.

W는 각 샘플의 세포 유형 비율 행렬입니다. 예를 들어 샘플 1이 근육세포 60%, 면역세포 20%, 혈관내피세포 20%로 이루어져 있다면, 이런 비율이 W에 들어갑니다.

H는 세포 유형별 유전자 발현 시그니처 행렬입니다. 예를 들어 근육세포는 어떤 유전자를 높게 발현하고, 면역세포는 어떤 유전자를 높게 발현하는지 담은 표입니다.

그러면 W × H는 “세포 유형 비율과 각 세포 유형의 발현 특징을 섞었을 때 예상되는 bulk 발현”이 됩니다. 이 값이 실제 관측된 M과 비슷해지도록 W 또는 H를 추정하는 것이 Deconvolution입니다.

쉬운 문장으로 바꾸면 이렇습니다.

관측된 조직 발현량 = 세포 유형 비율 × 세포 유형별 발현 특징

4. Reference-based와 Reference-free Deconvolution은 무엇이 다른가요?

Deconvolution에는 크게 두 가지 접근이 있습니다.

Reference-based deconvolution은 세포 유형별 시그니처를 알고 있다고 가정합니다. 예를 들어 scRNA-seq 데이터를 이용해 근육세포, 혈관내피세포, 면역세포의 특징 발현 패턴을 미리 만들어 둡니다. 그다음 bulk 데이터가 이 시그니처들의 어떤 비율로 섞였는지 추정합니다. 원문에서 GLM과 Nu-SVR을 이용하는 방식은 이런 reference-based 접근에 가깝습니다.

Reference-free deconvolution은 세포 유형별 시그니처를 미리 모른다고 가정합니다. 대신 bulk 샘플 여러 개를 보고, 숨겨진 구성 요소를 찾아냅니다. 원문에서 NMF를 사용하는 방식이 여기에 해당합니다. NMF는 관측된 데이터 행렬을 두 개의 음이 아닌 행렬로 나눕니다. 이때 하나는 샘플별 구성 비율처럼, 다른 하나는 숨겨진 구성 요소의 유전자 패턴처럼 해석할 수 있습니다.

정리하면 다음과 같습니다.

방식	필요한 정보	장점	주의점
Reference-based	세포 유형별 시그니처	해석이 비교적 명확합니다.	시그니처가 부정확하면 결과도 흔들립니다.
Reference-free	bulk 데이터 여러 샘플	사전 세포 유형 정보가 적어도 시도할 수 있습니다.	나온 구성 요소가 어떤 세포 유형인지 해석해야 합니다.

초보자는 이렇게 기억하면 됩니다.

Reference-based는 “재료 맛을 알고 혼합 비율을 맞히는 일”이고, Reference-free는 “재료 종류도 어느 정도 추정하는 일”입니다.

5. GLM, Nu-SVR, NMF는 각각 어떤 느낌인가요?

원문에는 GLM, Nu-SVR, NMF가 나옵니다. 이름이 어렵지만, 26장 진입 전에는 각 방법의 목적과 감각만 잡아도 충분합니다.

GLM은 Generalized Linear Model의 약자입니다. 선형 모델을 조금 더 일반화한 것입니다. Deconvolution에서는 유전자 발현을 세포 유형 시그니처들의 조합으로 설명하려고 합니다. 즉 “이 bulk 발현은 세포 유형 A, B, C의 시그니처를 어느 정도씩 섞으면 설명될까?”를 회귀 문제처럼 풉니다.

Nu-SVR은 Support Vector Regression의 한 종류입니다. CIBERSORT가 사용하는 방식과 관련이 있습니다. SVR은 회귀 문제를 풀 때 오차를 일정 범위 안에서 허용하면서 안정적인 해를 찾으려는 방법입니다. 초보자는 “잡음이 있는 데이터에서 비교적 튼튼하게 비율을 추정하려는 회귀 방법” 정도로 이해하면 됩니다.

NMF는 Non-negative Matrix Factorization입니다. 음수가 아닌 행렬분해입니다. 유전자 발현량과 세포 비율은 보통 음수가 될 수 없습니다. 세포가 -20% 들어 있다고 말할 수 없고, 발현량이 -5라고 말하는 것도 일반적인 count 맥락에서는 부자연스럽습니다. 그래서 음수가 아닌 값들로 행렬을 나누는 NMF가 생물학 데이터 해석에 자주 쓰입니다.

방법	쉬운 해석	26장에서의 역할
GLM	선형 회귀 기반 추정	시그니처를 이용해 세포 비율을 추정합니다.
Nu-SVR	SVM 계열의 회귀	CIBERSORT 방식과 비슷한 비율 추정입니다.
NMF	음이 아닌 행렬분해	시그니처 없이 숨은 구성 요소를 찾습니다.

6. CIBERSORT는 무엇인가요?

CIBERSORT는 bulk 유전자 발현 데이터에서 세포 유형 비율을 추정하는 대표적인 Deconvolution 도구입니다. 원문에서는 CIBERSORT가 Nu-SVM을 사용한다고 설명합니다.

CIBERSORT를 이해하기 위해 SVM 수학을 깊게 알 필요는 없습니다. 중요한 것은 CIBERSORT가 bulk 발현 패턴을 보고 “이 샘플에는 어떤 면역세포 또는 세포 유형이 어느 정도 들어 있는가?”를 추정하는 데 많이 쓰인 도구라는 점입니다.

생명정보학 논문을 읽다 보면 “CIBERSORT로 immune cell fraction을 추정했다” 같은 표현을 자주 볼 수 있습니다. 특히 암 연구에서 종양 조직 안에 T cell, B cell, macrophage 같은 면역세포가 얼마나 섞여 있는지 추정할 때 자주 사용됩니다.

다만 CIBERSORT 결과도 완벽한 정답은 아닙니다. 시그니처 행렬의 품질, 데이터 전처리 방식, 샘플의 생물학적 특성에 따라 결과가 달라질 수 있습니다. 그래서 Deconvolution 결과는 가능한 경우 다른 실험이나 단일세포 데이터, 조직염색 결과와 함께 검증하는 것이 좋습니다.

7. GRN은 무엇인가요?

GRN은 Gene Regulatory Network, 즉 유전자 조절 네트워크입니다. 유전자들이 서로 어떤 관계를 맺고 있는지 점과 선으로 나타낸 것입니다.

GRN은 유전자 사이의 조절 관계 지도입니다

세포 안에서는 유전자가 제멋대로 켜지고 꺼지는 것이 아닙니다. 어떤 전사인자는 다른 유전자의 발현을 촉진하거나 억제합니다. 어떤 유전자들은 같은 생물학적 과정에 참여하기 때문에 함께 높아지거나 함께 낮아질 수 있습니다. 이런 관계를 네트워크로 표현하면, 세포 상태를 이해하는 데 도움이 됩니다.

GRN에서 점은 보통 유전자입니다. 선은 유전자 사이의 관계입니다. 화살표가 있으면 방향이 있는 조절 관계를 뜻할 수 있습니다. 예를 들어 A 유전자가 B 유전자의 발현을 증가시킨다면 A에서 B로 화살표를 그릴 수 있습니다. 막대 모양이면 억제를 뜻할 수 있습니다.

하지만 실제 전사체 데이터만으로 “A가 B를 직접 조절한다”고 단정하기는 어렵습니다. 발현량이 함께 움직인다고 해서 반드시 직접 조절 관계라는 뜻은 아닙니다. 두 유전자가 같은 상위 조절자에 의해 함께 움직일 수도 있습니다.

그래서 GRN 분석은 “관계 후보를 찾는 방법”이지, 모든 조절 관계를 확정하는 방법은 아닙니다.

8. 허브 유전자는 왜 중요한가요?

네트워크에서 허브는 연결이 많은 중심 노드입니다. 유전자 조절 네트워크에서 허브 유전자는 많은 유전자와 관계를 맺고 있는 유전자입니다.

교통망으로 비유하면 허브 유전자는 큰 환승역과 비슷합니다. 작은 역 하나가 고장 나면 영향이 제한적일 수 있지만, 큰 환승역이 멈추면 전체 도시 교통이 크게 흔들릴 수 있습니다. 세포에서도 허브 유전자가 바뀌면 여러 생물학적 과정에 영향을 줄 가능성이 있습니다.

허브 유전자는 질병 연구에서 특히 관심을 받습니다. 어떤 암이나 질환에서 특정 허브 유전자의 조절이 무너지면, 많은 하위 유전자의 발현이 함께 바뀔 수 있습니다. 그래서 허브 유전자는 바이오마커 후보나 치료 표적 후보가 될 수 있습니다.

하지만 허브라고 해서 무조건 원인 유전자라는 뜻은 아닙니다. 네트워크 분석은 데이터 기반으로 중요한 후보를 좁혀주는 도구입니다. 생물학적 검증은 별도로 필요합니다.

9. Centrality는 무엇인가요?

Centrality는 네트워크에서 어떤 노드가 얼마나 중요한지 측정하는 기준입니다. 원문에서는 Degree Centrality, Betweenness Centrality, PageRank가 나옵니다.

Centrality는 네트워크에서 중요한 점을 찾는 기준입니다

Degree Centrality는 연결된 선의 수를 봅니다. 어떤 유전자가 많은 유전자와 연결되어 있으면 degree가 높습니다. 가장 직관적인 중요도입니다.

Betweenness Centrality는 최단 경로의 길목 역할을 봅니다. 어떤 유전자가 여러 유전자 그룹 사이를 연결하는 다리 역할을 하면 betweenness가 높습니다. 연결 수가 아주 많지 않아도, 서로 다른 모듈을 이어주는 중요한 유전자일 수 있습니다.

PageRank는 중요한 노드와 연결되어 있는지를 봅니다. 단순히 연결 수만 보는 것이 아니라, “중요한 곳에서 받은 연결”을 더 가치 있게 봅니다. 웹페이지 순위를 매기는 아이디어에서 유명해졌습니다.

정리하면 다음과 같습니다.

Centrality	쉬운 질문	유전자 네트워크에서의 의미
Degree	연결이 많은가요?	많은 유전자와 함께 움직이는 후보입니다.
Betweenness	길목을 잡고 있나요?	모듈 사이를 잇는 후보입니다.
PageRank	중요한 유전자와 연결되었나요?	영향력 있는 주변부와 연결된 후보입니다.

26장 실습에서는 NetworkX로 degree centrality를 계산하고, centrality 값에 따라 노드 색을 다르게 표시합니다. 이것은 “이 네트워크에서 어떤 유전자가 중심처럼 보이는가?”를 시각적으로 확인하는 과정입니다.

10. WGCNA는 무엇인가요?

WGCNA는 Weighted Gene Co-expression Network Analysis의 약자입니다. 이름 그대로 “가중치가 있는 유전자 공동발현 네트워크 분석”입니다.

WGCNA의 큰 흐름

공동발현은 유전자들의 발현량이 함께 움직인다는 뜻입니다. 예를 들어 여러 샘플에서 유전자 A가 높을 때 유전자 B도 높고, A가 낮을 때 B도 낮다면 두 유전자는 공동발현된다고 볼 수 있습니다.

WGCNA는 이런 유전자 간 상관관계를 네트워크로 바꿉니다. 상관관계가 높은 유전자 쌍은 강하게 연결되고, 상관관계가 낮은 유전자 쌍은 약하게 연결됩니다. 그런 다음 비슷하게 연결된 유전자들을 모듈로 묶습니다.

모듈은 함께 움직이는 유전자 집단입니다. 같은 모듈에 속한 유전자들은 같은 생물학적 과정에 참여할 가능성이 있습니다. 예를 들어 면역 반응 관련 유전자들이 한 모듈에 모일 수 있고, 세포주기 관련 유전자들이 다른 모듈에 모일 수 있습니다.

WGCNA를 한 문장으로 말하면 다음과 같습니다.

여러 유전자의 발현 패턴을 비교해, 함께 움직이는 유전자 무리와 그 안의 중심 유전자를 찾는 방법입니다.

11. 상관계수와 인접 행렬은 무엇인가요?

WGCNA의 첫 단계는 유전자 간 상관계수를 계산하는 것입니다. 상관계수는 두 값이 함께 움직이는 정도를 나타냅니다. 1에 가까우면 함께 증가하고 함께 감소하는 경향이 강합니다. -1에 가까우면 하나가 증가할 때 다른 하나가 감소하는 경향이 강합니다. 0에 가까우면 뚜렷한 선형 관계가 약합니다.

원문에서는 유전자 간 상관 행렬을 계산한 뒤, 절댓값을 beta 제곱합니다.

correlation_matrix = np.abs(correlation_matrix) ** beta

여기서 beta는 soft-thresholding power입니다. 상관관계가 강한 연결은 더 강조하고, 약한 연결은 더 약하게 만듭니다.

예를 들어 상관계수 0.9와 0.3이 있다고 해봅시다. beta가 3이면 0.9³은 0.729이고, 0.3³은 0.027입니다. 둘의 차이가 훨씬 커집니다. 즉 강한 관계는 남기고 약한 관계는 희미하게 만드는 효과가 있습니다.

이렇게 만들어진 행렬을 인접 행렬이라고 볼 수 있습니다. 인접 행렬은 네트워크에서 어떤 점과 어떤 점이 얼마나 강하게 연결되어 있는지 나타내는 표입니다.

초보자는 인접 행렬을 “유전자끼리 얼마나 친한지 적어 둔 표”라고 이해하면 됩니다.

12. TOM은 왜 필요한가요?

TOM은 Topological Overlap Matrix입니다. 말은 어렵지만, 직관은 “두 유전자가 직접 연결되어 있을 뿐 아니라, 주변 친구도 얼마나 공유하는가?”를 보는 것입니다.

예를 들어 유전자 A와 B가 직접 어느 정도 비슷하게 움직인다고 합시다. 그런데 A와 B가 둘 다 C, D, E와도 비슷하게 연결되어 있다면, A와 B는 같은 네트워크 동네에 있을 가능성이 높습니다. TOM은 이런 공유 이웃 정보를 반영합니다.

단순 상관계수만 보면 두 유전자 사이의 직접 관계만 봅니다. TOM은 네트워크 주변 구조까지 봅니다. 그래서 모듈을 찾을 때 더 안정적인 거리 정보를 만들 수 있습니다.

원문에서는 TOM을 계산한 뒤 disttom = 1 - tom으로 거리 행렬을 만듭니다. TOM이 크다는 것은 가깝다는 뜻이므로, 거리로 바꾸려면 1에서 빼는 것입니다. 그다음 계층적 클러스터링을 이용해 유전자들을 모듈로 나눕니다.

비유하면, 두 사람이 직접 친한지도 중요하지만, 공통 친구가 많은지도 중요합니다. 공통 친구가 많으면 같은 모임에 속할 가능성이 높습니다. TOM은 유전자 네트워크에서 이런 공통 친구 감각을 숫자로 만든 것입니다.

13. NetworkX는 무엇을 해주나요?

NetworkX는 Python에서 그래프와 네트워크를 다루는 라이브러리입니다. 원문에서는 특정 모듈의 유전자들을 노드로 만들고, 유전자 사이의 연결을 edge로 만들어 네트워크를 시각화합니다.

그래프에서 노드는 점입니다. 여기서는 유전자입니다. edge는 선입니다. 여기서는 유전자 사이의 관계입니다. NetworkX는 이런 점과 선의 구조를 만들고, 중심성 계산을 하고, 그림으로 그릴 수 있게 도와줍니다.

예를 들어 원문에서는 모듈 0에 속한 유전자만 골라 네트워크를 만듭니다. 그리고 자기 자신으로 이어지는 self-loop를 제거합니다. 이후 유전자 이름으로 노드 라벨을 바꾼 뒤, degree centrality를 계산하고 시각화합니다.

초보자는 NetworkX를 “유전자 관계도를 그려주는 도구”라고 생각하면 됩니다. 하지만 실제로는 단순 그림 도구가 아니라, 네트워크의 구조적 특성을 계산하는 분석 도구입니다.

14. SCENIC과 TENET은 무엇인가요?

원문 끝부분에는 SCENIC과 TENET이 언급됩니다. 둘 다 scRNA-seq 데이터에서 유전자 조절 네트워크를 추론하는 데 쓰이는 도구입니다.

SCENIC은 전사인자와 표적 유전자의 관계를 바탕으로 세포 상태를 해석하는 도구로 잘 알려져 있습니다. 단순히 유전자들이 함께 발현되는지만 보는 것이 아니라, 전사인자 motif 정보 등을 활용해 조절 관계를 추정합니다.

TENET도 단일세포 데이터에서 조절 네트워크를 분석하는 도구입니다. 원문에서는 세부 구현보다 대표 도구 이름을 소개하는 흐름에 가깝습니다.

여기서 중요한 것은 WGCNA와 SCENIC/TENET의 성격 차이입니다. WGCNA는 공동발현 네트워크를 만드는 방법입니다. 유전자들이 함께 움직이는 패턴을 봅니다. SCENIC 같은 도구는 전사인자 중심의 조절 관계를 더 직접적으로 추론하려고 합니다.

초보자는 이렇게 정리하면 됩니다.

WGCNA: 함께 움직이는 유전자 무리를 찾습니다.
SCENIC/TENET: 단일세포 데이터에서 조절 관계를 더 구체적으로 추정하려고 합니다.

15. `M = W × H`를 작은 숫자로 계산해보기

Deconvolution의 행렬식을 처음 보면 어렵지만, 아주 작은 예로 보면 단순한 가중평균입니다.

예를 들어 어떤 bulk 샘플이 면역세포 70%, 상피세포 30%로 섞여 있다고 합시다. 어떤 유전자 A의 세포 유형별 signature가 다음과 같다고 해봅시다.

면역세포의 GeneA 발현 = 10
상피세포의 GeneA 발현 = 2

그러면 bulk에서 예상되는 GeneA 발현은 다음처럼 계산할 수 있습니다.

0.7 × 10 + 0.3 × 2 = 7 + 0.6 = 7.6

이때 W는 세포 유형 비율, H는 세포 유형별 유전자 발현 signature, M은 bulk에서 관측되는 혼합 발현값입니다. 실제 데이터는 샘플과 유전자가 훨씬 많을 뿐, 기본 직관은 같습니다.

행렬 크기도 중요합니다.

W: 5개 샘플 × 3개 세포 유형
H: 3개 세포 유형 × 100개 유전자
M = W × H: 5개 샘플 × 100개 유전자

가운데의 “3개 세포 유형”이 서로 맞아야 곱셈이 가능합니다. 결과는 샘플별 유전자 발현 행렬이 됩니다.

16. WGCNA 숫자를 작게 읽는 연습

WGCNA에서는 유전자끼리 함께 움직이는 정도를 상관계수로 봅니다. 그리고 상관계수에 거듭제곱을 적용해 강한 관계는 상대적으로 남기고 약한 관계는 더 작게 만듭니다.

예를 들어 beta가 2라면 다음처럼 됩니다.

상관 0.8 → 0.8² = 0.64
상관 0.3 → 0.3² = 0.09

둘 다 작아지지만, 약한 상관 0.3은 훨씬 더 작아집니다. 그래서 네트워크에서 강한 관계가 더 도드라져 보입니다.

TOM은 단순히 두 유전자만 보는 것이 아니라, 주변 이웃을 얼마나 공유하는지도 반영합니다. 본편에서 거리 행렬을 만들 때 distTOM = 1 - TOM 같은 형태가 나오면 다음처럼 읽으면 됩니다.

TOM = 0.9 → distTOM = 0.1  → 매우 가까움
TOM = 0.2 → distTOM = 0.8  → 멀리 떨어짐

즉 TOM이 클수록 비슷하고, 1 - TOM으로 만든 거리는 작을수록 비슷합니다.

17. 26챕터의 코드 흐름을 한 줄로 연결하기

26챕터의 코드는 크게 두 흐름입니다.

Deconvolution:
세포 유형 signature 준비 → bulk 신호 준비 → GLM/SVR/NMF로 비율 추정 → 실제 비율과 비교

GRN/WGCNA:
유전자 발현 행렬 → 상관계수 → 인접 행렬 → TOM → 거리 행렬 → 클러스터링 → 모듈과 허브 유전자 해석

여기서 주의할 점은 hub gene이 곧바로 “원인 유전자”라는 뜻은 아니라는 것입니다. 허브 유전자는 네트워크에서 연결이 많은 유전자입니다. 생물학적 원인이라고 주장하려면 추가 실험이나 독립적인 근거가 필요합니다.

18. 26챕터 들어가기 전 최소 체크리스트

26장을 읽기 전에 다음 질문에 답할 수 있으면 좋습니다.

bulk RNA-seq와 scRNA-seq의 차이는 무엇인가요?
Deconvolution은 왜 필요한가요?
세포 유형별 시그니처란 무엇인가요?
M = W × H에서 M, W, H는 각각 무엇인가요?
Reference-based와 Reference-free deconvolution은 어떻게 다른가요?
GLM, Nu-SVR, NMF는 각각 어떤 방식으로 문제를 푸나요?
CIBERSORT는 어떤 문제를 푸는 대표 도구인가요?
GRN에서 노드와 edge는 각각 무엇인가요?
허브 유전자는 왜 관심 대상이 되나요?
Degree centrality와 betweenness centrality는 어떻게 다른가요?
WGCNA는 무엇을 기준으로 유전자 모듈을 찾나요?
TOM은 단순 상관계수와 무엇이 다른가요?
NetworkX는 어떤 역할을 하나요?

이 질문들이 이해된다면 26장의 수식과 네트워크 코드는 단순한 계산 예제가 아니라, 섞인 조직 데이터와 유전자 관계망을 해석하는 도구로 보일 것입니다.

Gemini AI 채점

주관식 답안은 Gemini API로 채점합니다. API 키는 이 브라우저에만 저장됩니다.

API KEY 미등록

1. [쉬움] 객관식

26챕터에서 말하는 deconvolution의 기본 목적에 가장 가까운 것을 고르라.

선택지 1) bulk 또는 혼합 샘플의 발현 신호를 여러 세포 유형 비율이나 구성 성분으로 풀어 추정하는 것이다. 2) FASTQ 파일을 네 줄 구조로 나누는 것이다. 3) VCF의 REF와 ALT를 서로 바꾸는 것이다. 4) 공간 이미지를 RGB 채널로 압축하는 것이다.
2. [쉬움] 객관식

M = W × H 형태의 deconvolution 직관으로 가장 적절한 것을 고르라.

선택지 1) M은 BAM 파일이고 W와 H는 각각 REF와 ALT이다. 2) 혼합 발현 행렬 M을 세포 유형별 특징 W와 샘플별 비율 H의 곱으로 설명하려는 생각이다. 3) M은 p-value이고 W와 H는 volcano plot의 색상이다. 4) M은 리눅스 명령이고 W와 H는 파일 권한이다.
3. [쉬움] 객관식

reference-based deconvolution의 특징으로 가장 적절한 것을 고르라.

선택지 1) 어떤 reference도 쓰지 않고 반드시 세포 이미지만 분석한다. 2) VCF 주석 데이터베이스만 사용해 germline variant를 찾는다. 3) 미리 알려진 세포 유형별 reference expression profile을 이용해 혼합 샘플을 분해한다. 4) 신경망의 validation loss만으로 세포 비율을 계산한다.
4. [쉬움] 객관식

GRN이 의미하는 것으로 가장 적절한 것을 고르라.

선택지 1) read의 네 줄 FASTQ 구조를 의미한다. 2) BAM을 VCF로 바꾸는 압축 포맷이다. 3) 공간 좌표에서 x축과 y축의 합이다. 4) 유전자들이 서로 조절하거나 관련되는 관계를 네트워크로 표현한 유전자 조절 네트워크이다.
5. [쉬움] 객관식

허브 유전자에 대한 설명으로 가장 적절한 것을 고르라.

선택지 1) 네트워크에서 많은 연결을 가지거나 중심적 위치를 차지하는 유전자이다. 2) 항상 read 길이가 가장 긴 유전자이다. 3) BAM index 파일의 첫 번째 줄이다. 4) p-value가 정확히 1인 유전자이다.
6. [쉬움] 객관식

WGCNA의 기본 아이디어로 가장 적절한 것을 고르라.

선택지 1) FASTQ read를 trimming하는 품질 관리 도구이다. 2) 유전자 발현 패턴의 상관성을 바탕으로 함께 움직이는 유전자 모듈을 찾는 분석이다. 3) Octopus가 만든 VCF를 압축 해제하는 명령이다. 4) 이미지 파일의 배경색을 제거하는 segmentation 도구이다.
7. [보통] 객관식

reference-free deconvolution을 사용할 가능성이 높은 상황으로 가장 적절한 것을 고르라.

선택지 1) 모든 세포 유형 reference가 완벽하고 샘플 조건도 명확한 경우이다. 2) FASTQ 파일을 압축 해제해야 하는 경우이다. 3) 신뢰할 만한 세포 유형별 reference profile이 부족하거나 알 수 없는 구성 성분을 추정해야 하는 경우이다. 4) VCF의 FILTER가 PASS인 변이만 골라야 하는 경우이다.
8. [보통] 객관식

GLM, Nu-SVR, NMF를 deconvolution 맥락에서 구분한 설명으로 가장 적절한 것을 고르라.

선택지 1) 셋은 모두 동일한 리눅스 파일 삭제 명령이다. 2) GLM은 VCF 포맷, Nu-SVR은 BAM 포맷, NMF는 FASTQ 포맷이다. 3) 셋은 공간 이미지 뷰어의 확대 모드 이름이다. 4) GLM은 통계 모델, Nu-SVR은 서포트 벡터 회귀 계열, NMF는 음이 아닌 행렬분해 계열로 볼 수 있다.
9. [보통] 객관식

CIBERSORT에 대한 설명으로 가장 적절한 것을 고르라.

선택지 1) 유전자 발현 자료에서 세포 유형 구성 비율을 추정하는 대표적인 deconvolution 방법 중 하나이다. 2) read를 참조 유전체에 정렬하는 STAR의 index 생성 옵션이다. 3) BAM 파일을 정렬하고 중복 read를 표시하는 samtools 하위 명령이다. 4) Jupyter notebook에서만 동작하는 heatmap 색상표이다.
10. [보통] 객관식

centrality가 네트워크 분석에서 의미하는 것으로 가장 적절한 것을 고르라.

선택지 1) count matrix에서 모든 값을 중앙값으로 바꾸는 정규화이다. 2) 노드가 네트워크 안에서 얼마나 중심적이거나 중요한 위치에 있는지 수치화한 것이다. 3) FASTA 파일의 가운데 염기만 읽는 index 방식이다. 4) DESeq2 contrast의 기준 조건을 뜻한다.
11. [보통] 객관식

상관계수 기반 인접 행렬의 의미로 가장 적절한 것을 고르라.

선택지 1) 샘플별 조건 정보를 one-hot encoding한 metadata 표이다. 2) VCF에서 REF와 ALT 길이 차이를 표시한 표이다. 3) 유전자 쌍의 발현 패턴 유사도를 연결 강도로 바꿔 네트워크 형태로 표현한 것이다. 4) UMAP 좌표를 이미지 픽셀로 변환한 표이다.
12. [보통] 객관식

TOM을 WGCNA에서 사용하는 이유로 가장 적절한 것을 고르라.

선택지 1) FASTQ 파일의 품질 문자를 Phred score로 변환하기 위해서이다. 2) VCF의 header 줄을 제거하기 위해서이다. 3) BAM 파일을 압축 해제하지 않고 이미지로 보기 위해서이다. 4) 직접 상관뿐 아니라 공유 이웃 구조를 반영해 네트워크 연결의 안정적인 유사도를 계산하기 위해서이다.
13. [보통] 객관식

NetworkX가 수행할 수 있는 역할로 가장 적절한 것을 고르라.

선택지 1) 노드와 엣지로 구성된 그래프를 만들고 centrality, community, 경로 같은 네트워크 지표를 계산하는 것이다. 2) RNA-seq read를 splice-aware 정렬하는 것이다. 3) DESeq2의 p-value를 계산하는 R 패키지이다. 4) 공간 전사체 이미지를 직접 촬영하는 장비이다.
14. [어려움] 객관식

deconvolution 결과를 해석할 때 가장 조심해야 할 점으로 적절한 것을 고르라.

선택지 1) 모델이 출력한 세포 비율은 항상 현미경으로 직접 센 값과 완전히 같다. 2) reference 품질, batch effect, 세포 상태 차이, 모델 가정 때문에 추정 비율이 실제 구성과 다를 수 있음을 고려해야 한다. 3) reference가 없어도 모든 세포 유형 이름은 자동으로 정확히 붙는다. 4) bulk 발현값은 노이즈가 없으므로 통계 모델이 필요 없다.
15. [어려움] 객관식

GRN에서 상관관계만으로 조절 인과를 단정하면 안 되는 이유로 가장 적절한 것을 고르라.

선택지 1) 상관계수는 항상 음수만 나오기 때문이다. 2) 유전자 발현 자료에는 시간 정보가 항상 완벽히 들어 있기 때문이다. 3) 함께 변한다고 해서 한 유전자가 다른 유전자를 직접 조절한다는 인과관계가 증명되는 것은 아니기 때문이다. 4) 네트워크 그래프에는 노드와 엣지가 존재하지 않기 때문이다.
16. [어려움] 객관식

허브 유전자를 생물학적으로 해석할 때 가장 균형 잡힌 관점은 무엇인가?

선택지 1. 허브 유전자는 무조건 질병 원인 유전자로 확정한다. 2. 연결 수가 많으면 발현량은 항상 0이어야 한다. 3. 허브 유전자는 네트워크 분석에서 삭제해야 하는 오류 노드이다. 4. 중요한 후보일 수 있지만, 네트워크 분석만으로 원인 유전자라고 단정할 수 없으므로 별도의 생물학적 검증이 필요하다.
17. [어려움] 객관식

WGCNA 모듈을 해석하는 적절한 관점으로 가장 가까운 것을 고르라.

선택지 1. 함께 움직이는 유전자 집단을 모듈로 보고, 같은 모듈의 유전자들이 비슷한 생물학적 과정에 참여할 가능성을 해석한다. 2. 모듈 색 이름만 보고 생물학적 기능을 확정한다. 3. 상관계수가 낮은 유전자만 모아 질병 원인 목록으로 저장한다. 4. 모듈을 찾으면 metadata와 표현형 정보는 모두 버린다.
18. [어려움] 객관식

SCENIC과 TENET 같은 도구를 언급할 때의 핵심 관심사로 가장 적절한 것을 고르라.

선택지 1) VCF 파일에서 REF와 ALT만 압축하는 것이다. 2) 전사인자와 target gene 관계, 조절 네트워크, 세포 상태별 regulon 활성 같은 구조를 추정하는 것이다. 3) Snakemake rule의 wildcard 이름을 자동 생성하는 것이다. 4) 공간 이미지의 RGB 밝기만 보정하는 것이다.
19. [어려움] 객관식

NMF 기반 접근에서 음이 아닌 제약이 직관적으로 의미하는 것으로 가장 적절한 것을 고르라.

선택지 1) 모든 유전자 사이의 상관계수가 반드시 음수가 되어야 한다는 제약이다. 2) BAM 파일 크기가 0보다 작아야 한다는 제약이다. 3) 발현량이나 구성 비율처럼 음수가 되기 어려운 값을 더해 혼합 신호를 설명하려는 제약이다. 4) p-value가 항상 1보다 커야 한다는 제약이다.
20. [어려움] 객관식

네트워크 중심성 지표를 하나만 보고 생물학적 결론을 내리기 어려운 이유로 가장 적절한 것은 무엇인가?

선택지 1. 중심성 지표는 모든 그래프에서 항상 같은 값을 내기 때문이다. 2. 중심성은 유전자 발현량이 아니라 염색체 길이만 의미하기 때문이다. 3. 네트워크 분석은 오직 이미지 데이터에만 적용 가능하기 때문이다. 4. Degree, Betweenness, PageRank는 각각 연결 수, 길목 역할, 중요한 노드와의 연결처럼 서로 다른 중요성을 보기 때문이다.
21. [보통] 객관식
다음 deconvolution 예시에서 예상 bulk GeneA 발현값을 고르라.
```
면역세포 비율 0.7, GeneA signature 10
상피세포 비율 0.3, GeneA signature 2
```
선택지 1) 7.6 2) 12.0 3) 0.4 4) 70.2
22. [보통] 객관식
다음 행렬 곱의 결과 shape로 가장 적절한 것을 고르라.
```
W: 5 samples × 3 cell types
H: 3 cell types × 100 genes
M = W × H
```
선택지 1) 3 samples × 3 genes 2) 5 samples × 100 genes 3) 100 samples × 5 genes 4) 8 samples × 103 genes
23. [보통] 객관식

WGCNA에서 beta=2일 때 상관계수 0.8을 인접성으로 바꾸면 얼마인가?

선택지 1) 1.6 2) 0.8 3) 0.64 4) 0.08
24. [보통] 객관식

distTOM = 1 - TOM일 때 TOM이 0.9인 두 유전자의 거리로 가장 적절한 것을 고르라.

선택지 1) 1.9 2) 0.9 3) -0.1 4) 0.1
25. [쉬움] 객관식
다음 네트워크에서 degree centrality가 가장 큰 유전자를 고르라.
```
GeneA: GeneB, GeneC, GeneD와 연결
GeneB: GeneA와 연결
GeneC: GeneA와 연결
GeneD: GeneA와 연결
```
선택지 1) GeneA 2) GeneB 3) GeneC 4) GeneD
26. [보통] 객관식

Reference-based deconvolution에 가장 가까운 설명을 고르라.

선택지 1) 세포 유형 signature 없이 모든 구성 요소를 완전히 무작위로만 해석한다. 2) 알려진 세포 유형별 signature를 참고해 bulk 샘플의 세포 구성 비율을 추정한다. 3) VCF 파일의 REF와 ALT 길이만 비교한다. 4) 공간 이미지의 픽셀 색만 압축한다.
27. [보통] 객관식

WGCNA 흐름으로 가장 자연스러운 것을 고르라.

선택지 1) VCF → ANNOVAR → FASTQ → STAR index 2) UMAP → FASTA 압축 → BAM 삭제 → VCF 변환 3) 유전자 발현 행렬 → 상관계수 → 인접 행렬 → TOM → 거리 행렬 → 모듈 탐색 4) 조직 이미지 → RGB 추출 → FASTQ read trimming만 수행
28. [어려움] 객관식

허브 유전자 해석에서 가장 조심해야 할 점을 고르라.

선택지 1) 연결이 많으면 무조건 질병 원인 유전자로 확정된다. 2) 허브 유전자는 네트워크에서 절대 제거할 수 없는 파일 이름이다. 3) centrality는 FASTQ 품질 점수를 의미한다. 4) 연결이 많다는 것은 중요한 후보라는 신호일 수 있지만, 생물학적 인과를 단정하려면 추가 근거가 필요하다.
주관식 1. [쉬움] 주관식 · Gemini 채점

Deconvolution의 목적을 혼합 샘플 관점에서 설명하라.
주관식 2. [쉬움] 주관식 · Gemini 채점

GRN과 허브 유전자의 의미를 설명하라.
주관식 3. [보통] 주관식 · Gemini 채점

Reference-based와 reference-free deconvolution의 차이를 설명하라.
주관식 4. [보통] 주관식 · Gemini 채점

WGCNA에서 상관계수, 인접 행렬, TOM, module이 연결되는 흐름을 설명하라.
주관식 5. [어려움] 주관식 · Gemini 채점

네트워크 중심성이나 허브 유전자만으로 생물학적 인과를 단정하면 안 되는 이유를 설명하라.