부록 E10: R과 Bioconductor

3 분 소요

이 장에서 배울 것

이번 장에서는 R과 바이오컨덕터(Bioconductor)를 배웁니다. 파이썬이 범용 프로그래밍과 데이터 처리에 강하다면, R은 통계분석과 생물정보학 패키지 생태계가 매우 강합니다. 특히 RNA-seq, single-cell RNA-seq, 차등발현 분석에서는 R 패키지가 자주 등장합니다.

핵심 용어를 먼저 정리하겠습니다.

R: 통계분석과 그래프 작성에 많이 쓰이는 프로그래밍 언어입니다.
패키지(package): 특정 기능을 묶어 둔 코드 모음입니다.
데이터프레임(data.frame): R에서 표 데이터를 나타내는 대표적인 구조입니다.
벡터(vector): R에서 같은 종류의 값들이 한 줄로 모인 구조입니다.
티디버스(tidyverse): 데이터 정리와 시각화를 편하게 해 주는 R 패키지 묶음입니다.
ggplot2: R에서 그래프를 그릴 때 많이 쓰는 패키지입니다.
바이오컨덕터(Bioconductor): 생물정보학 분석용 R 패키지들을 모아 둔 프로젝트입니다.
DESeq2: RNA-seq 차등발현 분석에 자주 쓰이는 Bioconductor 패키지입니다.
Seurat: single-cell RNA-seq 분석에 널리 쓰이는 R 패키지입니다.

R과 Bioconductor

가장 쉬운 비유: 생물정보학 전용 공구함

파이썬이 범용 공구함이라면, R과 Bioconductor는 생물정보학자가 많이 쓰는 특수 공구함에 가깝습니다. 통계 검정, 차등발현 분석, 유전체 주석, single-cell 분석처럼 연구 현장에서 자주 쓰는 도구들이 잘 정리되어 있습니다.

R의 기본 계산

R에서도 숫자 계산을 할 수 있습니다.

x <- 10
y <- 20
x + y

R에서는 변수에 값을 넣을 때 <-를 자주 씁니다. 파이썬의 =와 비슷한 역할이라고 보면 됩니다.

벡터 만들기

R에서 벡터는 c()로 만듭니다.

values <- c(2, 4, 6, 8)
mean(values)

mean(values)는 평균을 계산합니다. 여기서는 평균이 5입니다.

데이터프레임 만들기

표 데이터는 데이터프레임으로 다룹니다.

df <- data.frame(
  gene = c("BRCA1", "TP53", "EGFR"),
  expression = c(12.5, 8.2, 20.1),
  group = c("cancer", "normal", "cancer")
)

이 표는 유전자 이름, 발현량, 그룹 정보를 담고 있습니다.

열 선택과 조건 필터링

R에서도 특정 열을 꺼낼 수 있습니다.

df$gene
df$expression

조건에 맞는 행만 고를 수도 있습니다.

df[df$expression >= 10, ]

쉼표 앞은 행 조건, 쉼표 뒤는 열 조건입니다. 여기서는 열 조건을 비워 두었으므로 모든 열을 유지합니다.

ggplot2로 그래프 그리기

ggplot2는 R의 대표적인 그래프 패키지입니다.

library(ggplot2)

ggplot(df, aes(x = gene, y = expression)) +
  geom_col()

이 코드는 유전자별 발현량을 막대그래프로 그립니다. 처음에는 문법이 낯설지만, “데이터를 넣고, x축과 y축을 정하고, 어떤 모양으로 그릴지 추가한다”고 생각하면 됩니다.

Bioconductor 설치 감각

Bioconductor 패키지는 보통 BiocManager를 통해 설치합니다.

install.packages("BiocManager")
BiocManager::install("DESeq2")

실제 연구 환경에서는 패키지 버전이 중요합니다. 같은 코드라도 패키지 버전이 다르면 결과가 달라질 수 있으므로 환경 기록이 필요합니다.

DESeq2는 무엇을 하나요?

DESeq2는 RNA-seq에서 두 조건 사이에 발현량이 달라진 유전자를 찾는 데 자주 쓰입니다. 예를 들어 암 샘플과 정상 샘플을 비교해 어떤 유전자가 증가했거나 감소했는지 찾습니다.

입문 단계에서는 DESeq2 내부 수식을 외울 필요는 없습니다. 중요한 것은 “RNA-seq count 데이터를 받아서 정규화하고, 조건 간 차등발현 유전자를 찾는 도구”라는 점입니다.

Seurat는 무엇을 하나요?

Seurat는 single-cell RNA-seq 데이터를 분석할 때 많이 씁니다. 세포별 품질관리, 정규화, 차원축소, 클러스터링, 세포 유형 주석 같은 작업을 지원합니다.

즉, DESeq2가 bulk RNA-seq 차등발현에 자주 쓰인다면, Seurat는 세포 하나하나를 다루는 single-cell 분석에서 자주 쓰입니다.

파이썬과 R을 둘 다 알아야 하나요?

반드시 처음부터 둘 다 완벽히 할 필요는 없습니다. 하지만 계산생물학·생물정보학 연구자가 되려면 결국 둘 다 읽을 수 있어야 합니다. 논문 보충자료, 분석 스크립트, 연구실 코드에서 파이썬과 R이 섞여 나오는 일이 흔합니다.

초보자는 순서를 이렇게 잡으면 됩니다.

파이썬으로 파일과 표 처리 익히기
→ R로 통계와 생물정보 패키지 사용법 익히기
→ 필요한 분석마다 두 언어를 연결해서 쓰기

생물정보학에서 왜 중요한가

Bioconductor에는 유전체 좌표, RNA-seq, ChIP-seq, single-cell, pathway 분석을 위한 수많은 패키지가 있습니다. 많은 논문과 튜토리얼이 R 코드로 제공되므로, R을 읽고 실행할 수 있으면 연구 진입 장벽이 크게 낮아집니다.

Python과 R을 연결해서 읽는 감각

R과 Python은 문법은 다르지만 다루는 데이터 질문은 비슷합니다. 판다스에서 열을 꺼낼 때는 다음처럼 씁니다.

df["expression"]

R에서는 자주 다음처럼 씁니다.

df$expression

조건 필터링도 같은 질문을 다른 문법으로 표현한 것입니다.

df[df["expression"] >= 10]

df[df$expression >= 10, ]

Bioconductor는 단순 패키지 창고가 아니라 생물정보학 분석 생태계입니다. DESeq2는 count matrix와 sample metadata를 받아 차등발현을 분석하고, Seurat는 세포 × 유전자 행렬을 중심으로 single-cell 분석을 진행합니다.

초보자는 R을 처음부터 완벽히 외우기보다, 코드가 어떤 표를 입력으로 받고 어떤 결과표를 만드는지 읽는 훈련부터 하는 것이 좋습니다.

미니 실습 블록: R에서 metadata와 count table 확인하기

이 실습은 R에서 metadata와 count table 확인하기를 직접 손으로 확인하는 연습입니다. 왜 필요한가 하면, DESeq2 같은 Bioconductor 도구는 count matrix와 metadata의 샘플 연결이 매우 중요하기 때문입니다.

counts <- read.csv("counts.csv", row.names = 1)
metadata <- read.csv("metadata.csv")

print(head(counts))
print(head(metadata))
print(colnames(counts))
print(metadata$sample_id)

setdiff(colnames(counts), metadata$sample_id)
setdiff(metadata$sample_id, colnames(counts))

각 코드 요소의 의미를 풀어보면 다음과 같습니다. row.names = 1은 첫 번째 열을 행 이름으로 쓰라는 뜻입니다. metadata$sample_id는 sample_id 열을 꺼냅니다.

생물정보학/계산생물학에서 쓰이는 장면은 분명합니다. DESeq2, edgeR, limma-voom 같은 bulk RNA-seq 분석 도구 입력을 준비할 때 필요합니다.

흔한 오해 또는 주의점도 있습니다. 샘플 목록이 같아도 순서가 어긋나면 조건이 잘못 붙을 수 있으므로 순서까지 확인해야 합니다.

핵심 정리

R은 통계분석과 그래프 작성에 강한 언어이고, Bioconductor는 생물정보학 분석 패키지 생태계입니다. data.frame은 표 데이터, ggplot2는 시각화, DESeq2는 RNA-seq 차등발현, Seurat는 single-cell 분석에서 자주 쓰입니다.

Gemini AI 채점

주관식 답안은 Gemini API로 채점합니다. API 키는 이 브라우저에만 저장됩니다.

API KEY 미등록

1. [쉬움] 객관식

R의 특징으로 가장 적절한 것은?

선택지 통계분석과 그래프 작성에 많이 쓰이는 프로그래밍 언어입니다. 파일만 압축하는 도구입니다. DNA 합성 장비입니다. 리눅스 커널 이름입니다.
2. [쉬움] 객관식

Bioconductor의 설명으로 적절한 것은?

선택지 그래프 이미지 확장자입니다. 생물정보학 분석용 R 패키지들을 모아 둔 프로젝트입니다. read 품질 점수입니다. 파이썬 반복문의 이름입니다.
3. [코드] 객관식

R에서 변수에 값을 넣을 때 자주 쓰는 기호는?

선택지 == | <- >
4. [코드] 객관식

R에서 c(2, 4, 6, 8)은 무엇을 만드는가?

선택지 BAM 파일을 만듭니다. 그래프 제목을 지웁니다. 리눅스 폴더를 만듭니다. 숫자 벡터를 만듭니다.
5. [계산] 객관식

R 코드 mean(c(2,4,6,8))의 결과는?

선택지 5 4 6 20
6. [쉬움] 객관식

R의 data.frame은 무엇을 나타내는가?

선택지 압축 파일만 나타냅니다. 표 데이터를 나타냅니다. 터미널 명령만 나타냅니다. pH 값만 나타냅니다.
7. [코드] 객관식

df$gene의 의미로 적절한 것은?

선택지 df를 삭제합니다. gene을 FASTA로 변환합니다. df에서 gene 열을 꺼냅니다. 패키지를 설치합니다.
8. [코드] 객관식

df[df$expression >= 10, ]의 의미는?

선택지 모든 열을 삭제합니다. expression 값을 모두 10으로 바꿉니다. 그래프를 저장합니다. expression이 10 이상인 행을 고릅니다.
9. [쉬움] 객관식

ggplot2의 주된 역할은?

선택지 R에서 그래프를 그리는 것입니다. BAM 파일을 정렬하는 것입니다. VCF를 압축하는 것입니다. 터미널 경로를 이동하는 것입니다.
10. [코드] 객관식

library(ggplot2)의 의미는?

선택지 ggplot2를 삭제합니다. ggplot2 패키지를 불러옵니다. 유전자 서열을 복제합니다. 현재 폴더를 보여줍니다.
11. [코드] 객관식

BiocManager::install("DESeq2")는 무엇을 하는가?

선택지 DESeq2 파일을 삭제합니다. 그래프 축을 바꿉니다. Bioconductor 방식으로 DESeq2 패키지를 설치합니다. 파이썬 배열을 만듭니다.
12. [보통] 객관식

DESeq2가 자주 쓰이는 분석은?

선택지 이미지 해상도 조절입니다. 리눅스 사용자 추가입니다. FASTA read 이름 변경입니다. RNA-seq 차등발현 분석입니다.
13. [보통] 객관식

Seurat가 자주 쓰이는 분석은?

선택지 single-cell RNA-seq 분석입니다. 파일 압축률 계산입니다. 유기화학 반응 예측입니다. 터미널 폰트 설정입니다.
14. [보통] 객관식

파이썬과 R을 모두 읽을 수 있으면 좋은 이유는?

선택지 두 언어가 DNA를 직접 합성하기 때문입니다. 논문과 연구실 코드에서 두 언어가 모두 자주 나오기 때문입니다. R을 알면 수학이 필요 없어지기 때문입니다. 파이썬이 인터넷을 금지하기 때문입니다.
15. [보통] 객관식

티디버스(tidyverse)의 설명으로 적절한 것은?

선택지 DNA 염기쌍 이름입니다. BAM 파일 압축 방식입니다. 데이터 정리와 시각화를 편하게 해 주는 R 패키지 묶음입니다. 유전체 좌표 단위입니다.
16. [계산] 객관식

R에서 x <- 10; y <- 20; x + y의 결과는?

선택지 10 20 200 30
17. [보통] 객관식

R의 벡터와 파이썬/넘파이 배열의 공통점으로 적절한 것은?

선택지 여러 값을 묶어 계산할 수 있습니다. 항상 이미지 파일입니다. 오직 리눅스에서만 존재합니다. 파일 삭제 명령입니다.
18. [보통] 객관식

DESeq2를 처음 배울 때 가장 먼저 이해해야 할 점은?

선택지 DESeq2가 현미경이라는 점입니다. RNA-seq count 데이터를 이용해 조건 간 차등발현 유전자를 찾는 도구라는 점입니다. DESeq2가 운영체제라는 점입니다. DESeq2가 유전자 이름이라는 점입니다.
19. [보통] 객관식

Seurat에서 자주 다루는 데이터 단위는?

선택지 오직 원자번호입니다. 리눅스 파일 권한입니다. 세포 하나하나의 RNA-seq 데이터입니다. HTML 태그입니다.
20. [보통] 객관식

패키지 버전 기록이 중요한 이유는?

선택지 버전을 기록하면 데이터가 자동으로 늘어나기 때문입니다. 버전이 그래프 색을 무조건 정하기 때문입니다. 버전을 쓰면 p-value가 사라지기 때문입니다. 패키지 버전이 달라지면 같은 코드도 결과가 달라질 수 있기 때문입니다.
21. [중간] 객관식

R에서 df$expression의 의미로 가장 적절한 것은?

선택지 df에서 expression 열을 꺼낸다. df 파일을 삭제한다. expression을 FASTQ로 변환한다. 그래프를 저장한다.
22. [중간] 객관식

R 코드 df[df$expression >= 10, ]의 의미는?

선택지 열 이름을 바꾼다. expression이 10 이상인 행을 고른다. df를 압축한다. 모든 값을 10으로 만든다.
23. [중간] 객관식

DESeq2의 대표적 사용 상황으로 가장 적절한 것은?

선택지 파일 삭제 자동화 폴더 색상 변경 bulk RNA-seq 차등발현 분석 이미지 압축
24. [중간] 객관식

Seurat가 주로 쓰이는 분석 분야는?

선택지 일반 파일 복사 리눅스 권한 관리 압축 파일 해제 single-cell RNA-seq 분석
25. [중간] 객관식

Bioconductor 패키지 설치에 자주 쓰이는 도구는?

선택지 BiocManager samtools grep head
26. [중간] 객관식

Python pandas의 df["expression"]과 가장 비슷한 R 표현은?

선택지 `ls expression` `df$expression` `rm(expression)` `expression.fastq`
27. [중간] 객관식

Bioconductor 분석에서 패키지 버전을 기록해야 하는 이유는?

선택지 파일명을 짧게 하려고 그래프 색을 고정하려고 재현성을 확보하기 위해서 터미널을 닫기 위해서
28. [중간] 객관식

초보자가 R 코드를 읽을 때 먼저 확인할 질문으로 가장 적절한 것은?

선택지 코드 줄 수가 홀수인가? 파일명이 무조건 영어인가? 그래프가 항상 빨간색인가? 코드가 어떤 표를 입력받고 어떤 결과표를 만드는가?
29. [실전] 객관식

metadata$sample_id의 의미는?

선택지 원본 데이터를 덮어써서 파일 수를 줄이는 것이다. 분석 결과를 해석 없이 바로 생물학적 결론으로 확정하는 것이다. metadata 데이터프레임에서 sample_id 열을 꺼낸다. 샘플 ID와 파일명을 일부러 무작위로 바꾸는 것이다.
30. [실전] 객관식

DESeq2 입력에서 count matrix 열 순서와 metadata 행 순서가 어긋나면?

선택지 원본 데이터를 덮어써서 파일 수를 줄이는 것이다. 분석 결과를 해석 없이 바로 생물학적 결론으로 확정하는 것이다. 샘플 ID와 파일명을 일부러 무작위로 바꾸는 것이다. 샘플별 조건이 잘못 연결되어 차등발현 결과가 틀어질 수 있다.
주관식 31. [실습] 주관식 · Gemini 채점

R에서 숫자 벡터 values <- c(2,4,6,8)의 평균을 구하는 코드를 작성하라.
주관식 32. [실습] 주관식 · Gemini 채점

R에서 gene, expression 열을 가진 간단한 data.frame 예시를 작성하라.
주관식 33. [실습] 주관식 · Gemini 채점

df$expression이 무슨 뜻인지 설명하라.
주관식 34. [실습] 주관식 · Gemini 채점

DESeq2와 Seurat의 차이를 간단히 설명하라.
주관식 35. [실습] 주관식 · Gemini 채점

Bioconductor가 생물정보학에서 중요한 이유를 설명하라.
주관식 36. [실습] 주관식 · Gemini 채점

초보자가 파이썬과 R을 함께 배울 때 권장되는 순서를 설명하라.
주관식 37. [실습] 주관식 · Gemini 채점

Python pandas와 R data.frame에서 expression 열을 꺼내는 문법을 비교해 설명하라.
주관식 38. [실습] 주관식 · Gemini 채점

DESeq2와 Seurat의 대표 사용 상황을 비교하라.
주관식 39. [실습] 주관식 · Gemini 채점

R에서 metadata.csv를 읽고 앞부분을 출력하는 코드를 작성하라.
주관식 40. [실습] 주관식 · Gemini 채점

Python pandas의 df['sample_id']와 R의 df$sample_id가 어떤 점에서 비슷한지 설명하라.