부록 E21: 워크플로우 관리

5 분 소요

이 장에서 배울 것

이번 장에서는 워크플로우 관리(workflow management)를 배웁니다. 워크플로우는 여러 분석 단계를 정해진 순서와 의존성에 따라 자동으로 실행하는 구조입니다. 생물정보학 분석은 보통 한 번의 코드 실행으로 끝나지 않습니다. 품질관리, trimming, 정렬, 정량, 통계분석, 그림 생성이 줄줄이 이어집니다.

핵심 용어를 먼저 정리하겠습니다.

워크플로우(workflow): 여러 분석 단계를 연결한 전체 흐름입니다.
파이프라인(pipeline): 입력 데이터가 여러 처리 단계를 지나 결과로 바뀌는 과정입니다.
규칙(rule): 어떤 입력 파일을 받아 어떤 출력 파일을 만들지 정의한 단위입니다.
의존성(dependency): 어떤 결과를 만들기 전에 먼저 필요한 파일이나 단계입니다.
DAG(directed acyclic graph): 순환이 없는 방향 그래프입니다. 워크플로우의 실행 순서를 표현할 때 씁니다.
Snakemake: 규칙 기반 워크플로우 도구입니다. 앞으로는 Snakemake라고 부르겠습니다.
Nextflow: 대규모 파이프라인과 컨테이너 실행에 강한 워크플로우 도구입니다. 앞으로는 Nextflow라고 부르겠습니다.

워크플로우 관리

가장 쉬운 비유: 자동 조립 라인

공장에서 부품을 조립할 때 순서가 있습니다. 바퀴를 달기 전에 차체가 있어야 하고, 도색 전에 표면 처리가 필요합니다. 생물정보학 분석도 비슷합니다. BAM 파일을 만들기 전에 FASTQ 정렬이 필요하고, 변이 검출 전에 정렬 결과가 필요합니다.

워크플로우 도구는 이 순서를 기억하고 필요한 단계만 자동으로 실행합니다.

왜 그냥 bash 스크립트로 부족할 수 있는가

간단한 분석은 bash 스크립트로도 가능합니다.

fastqc sample.fastq.gz
hisat2 -x genome -U sample.fastq.gz -S sample.sam
samtools sort sample.sam -o sample.bam

하지만 샘플이 100개가 되고, 중간에 일부 단계가 실패하고, 몇 개 파일만 다시 만들어야 한다면 복잡해집니다. 워크플로우 도구는 이미 만들어진 파일은 건너뛰고, 필요한 출력이 없는 단계만 다시 실행할 수 있습니다.

Snakemake의 기본 생각

Snakemake는 “이 출력 파일을 만들려면 어떤 입력 파일과 명령이 필요한가?”를 규칙으로 적습니다.

rule sort_bam:
    input:
        "mapped/sample.sam"
    output:
        "mapped/sample.sorted.bam"
    shell:
        "samtools sort {input} -o {output}"

이 규칙은 mapped/sample.sam을 입력으로 받아 mapped/sample.sorted.bam을 만든다는 뜻입니다. Snakemake는 출력 파일이 필요한지 보고, 필요하면 shell 명령을 실행합니다.

여러 샘플을 다루는 방식

생물정보학은 여러 샘플을 반복 처리하는 일이 많습니다. 예를 들어 sample1, sample2, sample3이 있다면 같은 규칙을 샘플마다 적용해야 합니다.

SAMPLES = ["sample1", "sample2", "sample3"]

워크플로우에서는 샘플 이름 목록과 파일 이름 패턴을 이용해 반복 처리를 자동화합니다. 사람이 명령어를 100번 복사해 붙이는 것보다 오류가 훨씬 적습니다.

DAG는 실행 순서 지도입니다

DAG는 분석 단계의 의존성을 그림으로 보여줍니다.

FASTQ → QC
FASTQ → 정렬 → BAM 정렬 → count
count + metadata → 통계분석 → 그림

화살표는 “앞 단계가 끝나야 뒤 단계가 가능하다”는 뜻입니다. DAG가 있으면 어떤 단계가 먼저 실행되어야 하는지 명확해집니다.

로그와 실패 처리

긴 분석에서는 실패가 자연스럽게 생깁니다. 파일 경로가 틀릴 수도 있고, 메모리가 부족할 수도 있고, 입력 파일이 깨졌을 수도 있습니다. 그래서 각 단계의 로그를 남기는 것이 중요합니다.

log:
    "logs/sort_bam.log"

로그는 나중에 오류 원인을 찾는 단서입니다. 좋은 파이프라인은 결과만 만드는 것이 아니라, 실패했을 때 어디서 왜 실패했는지 추적할 수 있어야 합니다.

설정 파일을 분리하기

파이프라인 코드 안에 샘플 이름, 경로, 옵션을 모두 박아 넣으면 재사용이 어렵습니다. 설정 파일을 따로 두면 같은 코드로 다른 프로젝트를 처리할 수 있습니다.

reference: data/reference.fa
samples:
  - sample1
  - sample2
threads: 8

설정과 코드를 분리하면 파이프라인을 더 깨끗하게 관리할 수 있습니다.

실전 보강: wildcard와 샘플 확장

워크플로우 도구의 힘은 같은 규칙을 여러 샘플에 안전하게 반복하는 데 있습니다.

SAMPLES = ["S1", "S2", "S3"]

rule sort_bam:
    input:
        "mapped/{sample}.sam"
    output:
        "mapped/{sample}.sorted.bam"
    shell:
        "samtools sort {input} -o {output}"

여기서 {sample}은 wildcard입니다. S1, S2, S3에 대해 각각 같은 규칙이 적용됩니다. 샘플이 3개면 sorted BAM도 3개 만들어집니다. 샘플이 100개여도 규칙을 100번 복사하지 않습니다.

실전 보강: DAG와 실패한 단계만 다시 실행하기

워크플로우는 출력 파일 사이의 의존성을 보고 DAG를 만듭니다.

FASTQ → QC
FASTQ → alignment → sorted BAM → variant calling → VCF

만약 variant calling 단계만 실패했다면 FASTQ QC와 alignment를 처음부터 다시 할 필요가 없습니다. 이미 필요한 중간 파일이 있고 변경되지 않았다면 실패한 단계부터 다시 실행할 수 있습니다. 이것이 긴 생물정보학 파이프라인에서 매우 중요합니다.

초보자가 자주 하는 오해

오해 1: 워크플로우는 bash를 길게 쓴 것과 같다. 의존성 추적, 재실행 판단, 로그 관리가 핵심 차이입니다.
오해 2: 출력 파일 이름만 맞으면 된다. input/output 관계가 잘못되면 엉뚱한 파일로 분석할 수 있습니다.
오해 3: DAG에 순환이 있어도 괜찮다. A가 B를 필요로 하고 B가 A를 필요로 하면 시작할 수 없습니다.
오해 4: config 파일은 귀찮은 장식이다. 샘플 목록과 파라미터를 코드에서 분리해야 재사용과 재현이 쉬워집니다.

이전 개념과 다음 개념의 연결

워크플로우는 E13 RNA-seq, E14 변이 분석, E15 single-cell 분석을 실제로 여러 샘플에 반복 적용하는 방법입니다. 실행 환경은 E20, 계산 자원은 E22, 결과 재현은 E24와 이어집니다.

생물정보학에서 왜 중요한가

연구 결과는 한 번 눌러서 나온 것이 아닙니다. 수많은 중간 파일과 처리 단계가 결과를 만듭니다. 워크플로우 관리는 이 과정을 코드로 기록해, 다시 실행하고 검증할 수 있게 만듭니다.

어려운 개념 보강: Snakemake rule의 input/output을 읽는 법

Snakemake에서 초보자가 가장 많이 틀리는 부분은 input, output, shell의 관계입니다. rule은 “출력 파일을 만들기 위한 약속”입니다. 사람이 명령을 위에서 아래로 실행한다고 생각하기보다, Snakemake가 필요한 출력 파일을 보고 거꾸로 필요한 입력을 찾아간다고 이해해야 합니다.

rule sort_bam:
    input:
        "mapped/{sample}.sam"
    output:
        "mapped/{sample}.sorted.bam"
    shell:
        "samtools sort {input} -o {output}"

각 요소의 의미는 다음과 같습니다.

rule sort_bam: 규칙 이름입니다. 사람이 알아보기 위한 이름입니다.
input: 이 결과를 만들기 전에 있어야 하는 파일입니다.
output: 이 규칙이 만들어야 하는 파일입니다.
{sample}: wildcard입니다. S1, S2 같은 샘플 이름이 들어갈 자리입니다.
shell: 실제로 실행할 명령입니다.

예를 들어 최종 목표가 mapped/S1.sorted.bam이면 Snakemake는 {sample}을 S1로 채워서 다음 관계를 만듭니다.

input  = mapped/S1.sam
output = mapped/S1.sorted.bam
shell  = samtools sort mapped/S1.sam -o mapped/S1.sorted.bam

흔한 오류는 shell 명령이 output과 다른 파일을 만드는 경우입니다.

rule bad_sort:
    input:
        "mapped/{sample}.sam"
    output:
        "mapped/{sample}.sorted.bam"
    shell:
        "samtools sort {input} -o result.bam"

이 규칙은 output에 mapped/{sample}.sorted.bam을 적어 놓고 실제 명령은 result.bam을 만듭니다. 그러면 Snakemake 입장에서는 약속한 output이 생기지 않은 것입니다. 워크플로우에서는 파일 이름 약속이 곧 논리입니다.

DAG는 이 약속들의 연결입니다. 어떤 rule의 output이 다른 rule의 input이 되면 두 단계가 연결됩니다. 그래서 workflow를 설계할 때는 “명령어를 어떤 순서로 쓸까?”보다 “각 단계가 어떤 파일을 받아 어떤 파일을 만드는가?”를 먼저 생각하는 편이 안전합니다.

미니 실습 블록: Snakemake rule의 input/output 연결 확인하기

이 실습은 Snakemake rule의 input/output 연결 확인하기를 직접 손으로 확인하는 연습입니다. 왜 필요한가 하면, 워크플로우 도구는 파일 의존성을 기준으로 실행 순서를 정하므로 input과 output이 어긋나면 전체 파이프라인이 멈추기 때문입니다.

rule count_reads:
    input:
        "data/raw/{sample}.fastq.gz"
    output:
        "results/{sample}.read_count.txt"
    shell:
        "zcat {input} | wc -l > {output}"

각 코드 요소의 의미를 풀어보면 다음과 같습니다. {sample}은 wildcard입니다. Snakemake는 원하는 output을 만들기 위해 필요한 input을 역으로 찾고, rule 사이의 의존성을 DAG로 구성합니다.

생물정보학/계산생물학에서 쓰이는 장면은 분명합니다. 여러 샘플의 QC, trimming, alignment, counting을 자동 반복할 때 필요합니다.

흔한 오해 또는 주의점도 있습니다. shell 명령이 실제로 만드는 파일 경로와 output에 적힌 경로가 다르면 Snakemake는 결과를 찾지 못합니다.

핵심 정리

워크플로우 관리는 여러 분석 단계를 의존성에 따라 자동 실행하는 방법입니다. Snakemake와 Nextflow는 대표적인 도구입니다. 좋은 워크플로우는 입력, 출력, 규칙, 로그, 설정 파일을 명확히 남깁니다.

Gemini AI 채점

주관식 답안은 Gemini API로 채점합니다. API 키는 이 브라우저에만 저장됩니다.

API KEY 미등록

1. [객관식] 객관식

워크플로우의 설명으로 적절한 것은?

선택지 워크플로우를 단순히 긴 bash 스크립트와 완전히 같다고 보는 해석 input/output 의존성이 틀려도 실행 순서에는 영향이 없다고 보는 해석 여러 분석 단계를 연결한 전체 흐름입니다. 단백질의 아미노산 하나입니다.
2. [객관식] 객관식

파이프라인(pipeline)의 설명으로 적절한 것은?

선택지 입력 데이터가 여러 처리 단계를 지나 결과로 바뀌는 과정입니다. wildcard 없이 샘플 수가 늘어날 때마다 명령을 복사하는 접근 염색체의 물리적 끝입니다. SQL의 비밀번호입니다.
3. [객관식] 객관식

규칙(rule)의 설명으로 적절한 것은?

선택지 GPU의 물리적 온도입니다. 세포 바코드의 염기서열입니다. 논문 제목의 글자 수입니다. 어떤 입력 파일로 어떤 출력 파일을 만들지 정의한 단위입니다.
4. [객관식] 객관식

의존성(dependency)의 의미로 적절한 것은?

선택지 무조건 삭제해야 하는 파일입니다. 어떤 결과를 만들기 전에 먼저 필요한 파일이나 단계입니다. 단백질 구조의 색상입니다. 그래프 제목입니다.
5. [객관식] 객관식

DAG의 설명으로 적절한 것은?

선택지 모든 선이 원형으로 돌아야 하는 그림입니다. 순환이 없는 방향 그래프로 분석 단계의 의존성을 표현할 수 있습니다. DNA 염기쌍 하나입니다. DAG에 순환 의존성이 있어도 정상 실행된다고 보는 해석
6. [객관식] 객관식

Snakemake의 대표적 특징으로 적절한 것은?

선택지 실패한 한 단계 때문에 전체 파이프라인을 무조건 처음부터 다시 돌리는 접근 단백질을 화학적으로 합성합니다. SQL 서버만 관리합니다. 입력, 출력, shell 명령을 규칙으로 적어 워크플로우를 실행합니다.
7. [객관식] 객관식

Nextflow가 자주 언급되는 이유로 적절한 것은?

선택지 대규모 파이프라인과 컨테이너 실행에 강하기 때문입니다. config와 sample sheet 없이 코드 안에 모든 샘플명을 하드코딩하는 접근 FASTA의 첫 줄이기 때문입니다. 워크플로우를 단순히 긴 bash 스크립트와 완전히 같다고 보는 해석
8. [객관식] 객관식

bash 스크립트만으로 복잡한 분석이 어려워지는 상황은?

선택지 파일이 1개뿐일 때입니다. 명령어가 하나뿐일 때입니다. 샘플이 많고 일부 단계만 다시 실행해야 할 때입니다. 계산이 필요 없을 때입니다.
9. [객관식] 객관식

Snakemake 규칙의 input은 무엇을 뜻하는가?

선택지 해당 규칙이 실행되기 전에 필요한 입력 파일입니다. 항상 최종 보고서입니다. 서버 비용입니다. input/output 의존성이 틀려도 실행 순서에는 영향이 없다고 보는 해석
10. [객관식] 객관식

Snakemake 규칙의 output은 무엇을 뜻하는가?

선택지 파일을 삭제하라는 뜻입니다. wildcard 없이 샘플 수가 늘어날 때마다 명령을 복사하는 접근 해당 규칙이 만들어야 하는 출력 파일입니다. DAG에 순환 의존성이 있어도 정상 실행된다고 보는 해석
11. [객관식] 객관식

워크플로우 도구가 이미 만들어진 파일을 보고 할 수 있는 일은?

선택지 항상 모든 단계를 무조건 삭제합니다. 필요한 단계만 다시 실행할 수 있습니다. 코드를 읽지 못합니다. 데이터를 실험실로 되돌립니다.
12. [객관식] 객관식

로그(log)를 남기는 이유로 적절한 것은?

선택지 파일 크기를 무조건 0으로 만들기 위해서입니다. 단백질 구조를 접기 위해서입니다. 샘플 ID를 숨기기 위해서입니다. 어느 단계에서 무슨 일이 일어났고 실패했는지 추적하기 위해서입니다.
13. [객관식] 객관식

설정 파일을 분리하는 이유로 적절한 것은?

선택지 모든 코드를 읽기 어렵게 하기 위해서입니다. 원본 데이터를 삭제하기 위해서입니다. Git을 금지하기 위해서입니다. 샘플 이름, 경로, 옵션을 코드 밖에서 바꿀 수 있게 하기 위해서입니다.
14. [객관식] 객관식

샘플 100개에 같은 분석을 적용할 때 워크플로우가 유리한 이유는?

선택지 모든 샘플을 하나로 합쳐 없애기 때문입니다. 반복 명령을 자동화하고 사람의 복사-붙여넣기 오류를 줄이기 때문입니다. 통계가 필요 없어지기 때문입니다. 데이터가 작아지기 때문입니다.
15. [객관식] 객관식

워크플로우에서 “입력 FASTQ → 정렬 BAM → count table”은 무엇을 보여주는가?

선택지 실패한 한 단계 때문에 전체 파이프라인을 무조건 처음부터 다시 돌리는 접근 전하량 계산만입니다. 파일 사이의 의존성과 처리 순서입니다. config와 sample sheet 없이 코드 안에 모든 샘플명을 하드코딩하는 접근
16. [객관식] 객관식

좋은 파이프라인의 특징으로 적절한 것은?

선택지 입력, 출력, 규칙, 로그, 설정이 명확합니다. 모든 경로가 코드 안에 숨겨져 있습니다. 실패해도 아무 메시지가 없습니다. 원본 데이터를 바로 덮어씁니다.
17. [객관식] 객관식

워크플로우가 연구 재현성에 도움 되는 이유는?

선택지 실험을 자동으로 없애기 때문입니다. 분석 순서와 명령을 코드로 남겨 다시 실행할 수 있게 하기 때문입니다. 모든 데이터를 비공개로 바꾸기 때문입니다. 서버 비용을 무한대로 만들기 때문입니다.
18. [객관식] 객관식

DAG에서 순환이 있으면 문제가 되는 이유로 적절한 것은?

선택지 무엇을 먼저 실행해야 하는지 끝없이 꼬일 수 있기 때문입니다. 파일이 항상 작아지기 때문입니다. pandas가 금지되기 때문입니다. FASTA가 그림이 되기 때문입니다.
19. [객관식] 객관식

samtools sort {input} -o {output}에서 {input}과 {output}은?

선택지 항상 사용자 비밀번호입니다. 염기쌍의 종류입니다. 서버 위치입니다. 규칙에 정의된 입력 파일과 출력 파일 자리입니다.
20. [객관식] 객관식

워크플로우를 쓰더라도 사람이 확인해야 할 것은?

선택지 아무것도 확인하지 않아도 됩니다. 모든 오류가 자동으로 논문이 됩니다. 입력 데이터, 설정, 결과 해석이 타당한지입니다. 생물학적 의미는 사라집니다.
21. [객관식] 객관식

Snakemake에서 {sample} 같은 표현의 역할은?

선택지 항상 Python dict를 출력하는 명령이다. BAM 파일의 품질 점수이다. 샘플 이름 같은 변하는 부분을 파일 패턴에 넣는 wildcard이다. SQL의 NULL 값이다.
22. [객관식] 객관식

샘플 5개에 대해 각 샘플마다 sorted BAM 1개를 만드는 규칙이 있다. 출력 sorted BAM 수는?

선택지 1개 10개 25개 5개
23. [객관식] 객관식

샘플 4개마다 QC html과 QC zip을 하나씩 만든다면 총 출력 파일 수는?

선택지 8개 4개 2개 16개
24. [객관식] 객관식

DAG에 순환이 있으면 안 되는 이유는?

선택지 순환이 있어야만 실행이 빨라지기 때문이다. 어떤 단계를 먼저 실행해야 할지 결정할 수 없기 때문이다. DAG는 원래 순환 그래프라는 뜻이기 때문이다. 순환이 있으면 파일 크기가 0이 되기 때문이다.
25. [객관식] 객관식

워크플로우 도구가 bash 스크립트보다 유리한 대표 상황은?

선택지 명령어가 한 줄뿐일 때만 파일이 전혀 없을 때만 중간 단계가 많고 일부 실패 단계만 다시 실행해야 할 때 분석 결과를 해석하지 않을 때만
26. [객관식] 객관식

Snakemake rule의 input과 output이 중요한 이유는?

선택지 파일 의존성을 통해 실행 순서와 재실행 필요 여부를 판단하기 때문이다. input은 항상 삭제 대상이고 output은 주석이다. 둘은 화면 색깔만 바꾼다. 둘은 SQL 인덱스 이름이다.
27. [객관식] 객관식

config 파일로 샘플 목록과 파라미터를 분리하는 이유는?

선택지 분석 결과를 숨기기 위해서이다. FASTQ를 자동으로 압축 해제하기 위해서이다. CPU 요청량을 무조건 0으로 만들기 위해서이다. 코드를 고치지 않고 다른 데이터나 조건에 재사용하기 위해서이다.
28. [객관식] 객관식

출력 파일이 이미 있고 입력 파일이 바뀌지 않았다면 워크플로우 도구가 할 수 있는 합리적 행동은?

선택지 항상 모든 원본 데이터를 삭제한다. 해당 단계를 건너뛰거나 재실행하지 않을 수 있다. 무조건 처음부터 모든 단계를 다시 실행한다. 결과 파일 이름을 임의로 바꾼다.
29. [객관식] 객관식

로그 파일이 중요한 이유는?

선택지 로그는 read를 정렬하는 알고리즘이기 때문이다. 어떤 단계에서 어떤 명령과 오류가 발생했는지 추적할 수 있기 때문이다. 로그가 있으면 QC가 필요 없기 때문이다. 로그는 항상 민감 데이터이다.
30. [객관식] 객관식

E13 RNA-seq 파이프라인을 워크플로우화할 때 가장 적절한 단위는?

선택지 모든 명령을 하나의 알 수 없는 문자열로 숨긴다. 샘플마다 손으로 다른 파일명을 즉석에서 만든다. 결과 그림만 남기고 중간 파일 의존성을 없앤다. QC, trimming, 정렬/정량, count 생성, 통계분석 같은 단계별 rule
31. [실전] 객관식

Snakemake에서 input과 output이 중요한 이유는?

선택지 파일 의존성을 바탕으로 실행 순서와 필요한 작업을 결정하기 때문이다. 원본 데이터를 덮어써서 파일 수를 줄이는 것이다. 분석 결과를 해석 없이 바로 생물학적 결론으로 확정하는 것이다. 샘플 ID와 파일명을 일부러 무작위로 바꾸는 것이다.
32. [실전] 객관식

Snakemake rule의 output 경로와 shell 명령이 만든 파일 경로가 다르면?

선택지 원본 데이터를 덮어써서 파일 수를 줄이는 것이다. 작업이 끝나도 Snakemake가 기대한 출력 파일을 찾지 못해 실패할 수 있다. 분석 결과를 해석 없이 바로 생물학적 결론으로 확정하는 것이다. 샘플 ID와 파일명을 일부러 무작위로 바꾸는 것이다.
주관식 33. [응용] 주관식 · Gemini 채점

워크플로우와 파이프라인을 입문자 눈높이로 설명하라.
주관식 34. [응용] 주관식 · Gemini 채점

Snakemake 규칙이 input, output, shell을 갖는 이유를 설명하라.
주관식 35. [응용] 주관식 · Gemini 채점

DAG가 워크플로우에서 중요한 이유를 설명하라.
주관식 36. [응용] 주관식 · Gemini 채점

로그가 긴 생물정보학 분석에서 중요한 이유를 설명하라.
주관식 37. [응용] 주관식 · Gemini 채점

설정 파일을 코드와 분리하는 장점을 설명하라.
주관식 38. [응용] 주관식 · Gemini 채점

워크플로우 도구가 bash 스크립트보다 유리한 상황을 설명하라.
주관식 39. [응용] 주관식 · Gemini 채점

샘플 5개에 대해 QC html과 sorted BAM을 각각 1개씩 만드는 워크플로우라면 최종 출력 파일 수를 계산하고, wildcard가 왜 유용한지 설명하라.
주관식 40. [응용] 주관식 · Gemini 채점

워크플로우 도구가 실패한 단계만 다시 실행할 수 있는 이유를 DAG와 input/output 관점에서 설명하라.
주관식 41. [실습] 주관식 · Gemini 채점

FASTQ 파일의 줄 수를 세어 results/{sample}.line_count.txt로 저장하는 Snakemake rule을 작성하라.
주관식 42. [실습] 주관식 · Gemini 채점

워크플로우의 DAG가 왜 순환을 가지면 안 되는지 설명하라.