부록 E23: 소프트웨어 공학 기초

3 분 소요

이 장에서 배울 것

이번 장에서는 소프트웨어 공학(software engineering)의 기초를 배웁니다. 소프트웨어 공학은 코드를 더 읽기 쉽고, 고치기 쉽고, 오류를 찾기 쉽게 만드는 방법입니다. 계산생물학 연구 코드는 처음에는 작은 스크립트로 시작하지만, 시간이 지나면 여러 사람이 쓰는 분석 도구가 될 수 있습니다.

핵심 용어를 먼저 정리하겠습니다.

함수(function): 특정 일을 수행하도록 묶은 코드 조각입니다.
모듈(module): 함수나 변수들을 담은 파이썬 파일입니다.
테스트(test): 코드가 의도대로 작동하는지 확인하는 코드입니다.
로깅(logging): 프로그램 실행 중 어떤 일이 일어났는지 기록하는 방법입니다.
예외 처리(exception handling): 오류가 났을 때 프로그램이 어떻게 대응할지 정하는 방식입니다.
설정(configuration): 파일 경로, 옵션, 임계값처럼 코드 밖에서 바꿀 수 있게 둔 값입니다.
문서화(documentation): 코드 사용법과 의도를 설명하는 작업입니다.

소프트웨어 공학 기초

가장 쉬운 비유: 실험실 정리 습관

실험실에서 시약병 이름을 안 붙이고, 노트를 안 쓰고, 장비 사용법을 안 남기면 나중에 아무도 실험을 재현할 수 없습니다. 코드도 같습니다. 변수 이름이 엉망이고, 함수가 너무 길고, 테스트가 없으면 나중에 본인도 이해하기 어렵습니다.

좋은 코드는 똑똑해 보이는 코드가 아니라, 다시 읽었을 때 이해되고 안전하게 고칠 수 있는 코드입니다.

함수를 작게 나누기

나쁜 예시는 한 함수가 모든 일을 하는 코드입니다.

def analyze_everything():
    # 파일 읽기, 필터링, 통계, 그림 저장을 모두 여기서 처리
    pass

더 나은 방향은 일을 나누는 것입니다.

def load_counts(path):
    return pd.read_csv(path)

def filter_low_counts(df, min_count):
    return df[df["count"] >= min_count]

def save_result(df, path):
    df.to_csv(path, index=False)

함수가 작으면 테스트하기 쉽고, 오류 위치도 찾기 쉽습니다.

이름은 설명입니다

변수 이름 x, tmp, data2는 짧지만 의미가 약합니다. 분석 코드에서는 조금 길어도 의미 있는 이름이 좋습니다.

filtered_counts = filter_low_counts(counts, min_count=10)

이 이름은 “낮은 count를 걸러낸 결과”라는 뜻을 바로 알려줍니다.

테스트는 작은 안전장치입니다

테스트는 코드가 맞게 작동하는지 확인하는 코드입니다. 예를 들어 평균을 계산하는 함수를 만들었다면, 쉬운 입력으로 결과를 확인할 수 있습니다.

def mean(values):
    return sum(values) / len(values)

def test_mean():
    assert mean([1, 2, 3]) == 2

생물정보학에서 모든 복잡한 분석을 완벽히 테스트하기는 어렵습니다. 하지만 파일 파싱, 필터링, 간단한 계산 함수는 테스트할 수 있습니다.

로깅은 실행 기록입니다

print도 도움이 되지만, 긴 분석에서는 로깅이 더 좋습니다.

import logging

logging.info("Loading count table")
logging.info("Filtering low-count genes")

로그가 있으면 어느 단계까지 실행되었는지, 어디서 실패했는지 찾기 쉽습니다.

오류를 숨기지 말기

나쁜 예시는 모든 오류를 그냥 무시하는 코드입니다.

try:
    run_analysis()
except:
    pass

이렇게 하면 분석이 실패했는데도 모를 수 있습니다. 오류는 무조건 없애야 하는 것이 아니라, 의미 있게 드러나야 합니다.

더 나은 방향은 오류 메시지와 맥락을 남기는 것입니다.

try:
    run_analysis()
except FileNotFoundError as e:
    raise FileNotFoundError("입력 파일 경로를 확인하세요") from e

설정값은 코드에서 분리하기

파일 경로나 임계값을 코드 안에 여기저기 박아 넣으면 재사용이 어렵습니다.

MIN_COUNT = 10
INPUT_PATH = "data/counts.csv"

더 큰 프로젝트에서는 YAML이나 JSON 설정 파일을 사용할 수 있습니다. 이렇게 하면 코드 수정 없이 다른 데이터에 적용할 수 있습니다.

실전 보강: 돌아가는 코드와 믿을 수 있는 코드는 다르다

생물정보학 코드에서 가장 위험한 말은 “일단 돌아가니까 맞겠지”입니다. 코드는 실행되면서도 잘못된 결과를 만들 수 있습니다.

def load_counts(path):
    df = pd.read_csv(path)
    return df

이 코드는 파일을 읽지만, 필요한 열이 있는지 확인하지 않습니다. 더 안전한 코드는 최소한 입력을 검증합니다.

def load_counts(path):
    df = pd.read_csv(path)
    required = {"gene", "count"}
    missing = required - set(df.columns)
    if missing:
        raise ValueError(f"필수 열이 없습니다: {missing}")
    return df

실전 보강: 오류를 숨기면 분석이 조용히 망한다

다음 코드는 매우 위험합니다.

try:
    run_analysis()
except:
    pass

오류가 났는데도 아무 일 없었던 것처럼 지나가기 때문입니다. 분석 파이프라인에서는 차라리 명확히 실패하고 로그를 남기는 것이 안전합니다.

초보자가 자주 하는 오해

오해 1: 예외 처리는 오류를 없애는 기능이다. 오류를 적절히 보고하고 대응하는 기능입니다.
오해 2: 테스트는 큰 프로젝트에서만 필요하다. 작은 함수일수록 테스트하기 쉽고 효과도 큽니다.
오해 3: print가 있으면 로깅은 필요 없다. 장기 실행 분석에서는 시간, 단계, 오류 수준을 남기는 logging이 더 적합합니다.
오해 4: 하드코딩은 빠른 해결이다. 경로와 임계값이 코드에 박히면 다른 데이터에서 쉽게 깨집니다.

이전 개념과 다음 개념의 연결

소프트웨어 공학은 E13~E22의 모든 분석을 안전하게 만드는 기반입니다. 테스트 가능한 함수, 명확한 로그, 설정 분리는 E21 워크플로우와 E24 재현성의 실제 구현 방식입니다.

생물정보학에서 왜 중요한가

연구 코드는 논문 그림 하나만 만들고 끝날 수도 있지만, 그 그림을 믿으려면 코드가 정확해야 합니다. 소프트웨어 공학 기본기는 결과를 더 안전하게 만들고, 동료가 코드를 이해하고 재사용할 수 있게 합니다.

미니 실습 블록: 작은 함수와 테스트로 FASTA 코드 안전하게 만들기

이 실습은 작은 함수와 테스트로 FASTA 코드 안전하게 만들기를 직접 손으로 확인하는 연습입니다. 왜 필요한가 하면, 분석 코드가 길어질수록 작은 함수와 테스트가 없으면 오류를 찾기 어려워지기 때문입니다.

def gc_content(seq):
    gc = seq.count("G") + seq.count("C")
    return gc / len(seq)

def test_gc_content():
    assert gc_content("GC") == 1.0
    assert gc_content("AT") == 0.0

test_gc_content()
print(gc_content("ATGC"))

각 코드 요소의 의미를 풀어보면 다음과 같습니다. gc_content는 한 가지 일만 하는 작은 함수입니다. assert는 기대한 결과가 맞는지 확인하는 간단한 테스트입니다.

생물정보학/계산생물학에서 쓰이는 장면은 분명합니다. 서열 길이, GC 함량, sample_id 검증 같은 작은 로직을 안전하게 쌓을 때 필요합니다.

흔한 오해 또는 주의점도 있습니다. 빈 서열 ''을 넣으면 len(seq)가 0이라 나눗셈 오류가 생길 수 있으므로 예외 처리를 고려해야 합니다.

핵심 정리

좋은 연구 코드는 작고 명확한 함수, 의미 있는 이름, 테스트, 로그, 적절한 오류 처리, 설정 분리를 갖춥니다. 소프트웨어 공학은 거창한 개발자 기술이 아니라, 계산 연구를 덜 위험하게 만드는 습관입니다.

Gemini AI 채점

주관식 답안은 Gemini API로 채점합니다. API 키는 이 브라우저에만 저장됩니다.

API KEY 미등록

1. [객관식] 객관식

소프트웨어 공학의 목적에 가까운 것은?

선택지 코드가 오류 없이 끝나면 결과도 항상 맞다고 보는 해석 입력 파일의 열 구조를 검증하지 않아도 분석이 안전하다는 접근 except로 모든 오류를 숨기면 안정적인 코드가 된다는 해석 코드를 읽기 쉽고, 고치기 쉽고, 검증하기 쉽게 만드는 것입니다.
2. [객관식] 객관식

함수(function)의 설명으로 적절한 것은?

선택지 작은 테스트 데이터는 실제 분석 코드 검증에 도움이 되지 않는다는 해석 특정 일을 수행하도록 묶은 코드 조각입니다. BAM 파일의 색인입니다. API 서버의 주소입니다.
3. [객관식] 객관식

모듈(module)의 설명으로 적절한 것은?

선택지 하드코딩된 경로와 임계값이 재사용성에 영향을 주지 않는다는 해석 단백질의 2차 구조입니다. 함수나 변수들을 담은 파이썬 파일입니다. 로그 대신 화면 출력만 있으면 장기 실행 분석 추적이 충분하다는 해석
4. [객관식] 객관식

테스트(test)의 역할은?

선택지 코드가 의도대로 작동하는지 확인합니다. 모든 데이터를 삭제합니다. 세포를 염색합니다. 서버 비용을 계산합니다.
5. [객관식] 객관식

로깅(logging)의 설명으로 적절한 것은?

선택지 프로그램 실행 중 어떤 일이 일어났는지 기록하는 방법입니다. 코드가 오류 없이 끝나면 결과도 항상 맞다고 보는 해석 유전자 이름을 단백질로 바꾸는 과정입니다. SQL 테이블의 기본키입니다.
6. [객관식] 객관식

예외 처리(exception handling)의 의미로 적절한 것은?

선택지 모든 오류를 몰래 숨기는 것만입니다. 입력 파일의 열 구조를 검증하지 않아도 분석이 안전하다는 접근 오류가 났을 때 프로그램이 어떻게 대응할지 정하는 방식입니다. DNA 복제 과정입니다.
7. [객관식] 객관식

설정(configuration)에 해당하기 쉬운 것은?

선택지 단백질 아미노산 하나입니다. 파일 경로, 옵션, 임계값처럼 바꿀 수 있는 값입니다. 염색체 끝부분입니다. except로 모든 오류를 숨기면 안정적인 코드가 된다는 해석
8. [객관식] 객관식

문서화(documentation)의 역할은?

선택지 코드를 읽기 어렵게 만듭니다. 모든 로그를 삭제합니다. FASTA를 물리적으로 자릅니다. 코드 사용법과 의도를 설명합니다.
9. [객관식] 객관식

작은 함수가 좋은 이유로 적절한 것은?

선택지 항상 실행을 느리게 하기 때문입니다. 테스트하기 쉽고 오류 위치를 찾기 쉽기 때문입니다. 모든 결과를 숨기기 때문입니다. 패키지 설치를 막기 때문입니다.
10. [객관식] 객관식

의미 있는 변수 이름의 예로 적절한 것은?

선택지 항상 `x` 하나만 쓰는 것입니다. 비밀번호를 변수명으로 쓰는 것입니다. 공백만 있는 이름입니다. `filtered_counts`처럼 값의 의미를 알려주는 이름입니다.
11. [객관식] 객관식

assert mean([1,2,3]) == 2는 무엇에 가까운가?

선택지 mean 함수가 쉬운 예시에서 맞는지 확인하는 테스트입니다. Git 원격 저장소입니다. SLURM 작업 제출입니다. FASTA 파일 헤더입니다.
12. [객관식] 객관식

모든 오류를 except: pass로 숨기면 위험한 이유는?

선택지 항상 정확도가 높아지기 때문입니다. 서버 비용이 줄어들기 때문입니다. 분석이 실패했는데도 모를 수 있기 때문입니다. 세포가 자동으로 분류되기 때문입니다.
13. [객관식] 객관식

파일 경로를 코드 여기저기에 하드코딩하면 생기는 문제는?

선택지 코드가 항상 더 명확해집니다. 모든 오류가 사라집니다. 다른 데이터에 재사용하거나 수정하기 어려워집니다. Git 기록이 필요 없어집니다.
14. [객관식] 객관식

설정 파일을 쓰는 장점으로 적절한 것은?

선택지 코드 수정 없이 경로와 옵션을 바꿀 수 있습니다. 모든 데이터를 공개합니다. 테스트를 불가능하게 합니다. 로그를 삭제합니다.
15. [객관식] 객관식

연구 코드에서도 테스트가 필요한 이유는?

선택지 연구 코드는 절대 틀리지 않기 때문입니다. 테스트가 결과를 조작하기 때문입니다. 모든 코드를 없애기 때문입니다. 파일 파싱, 필터링, 계산 함수의 오류를 줄일 수 있기 때문입니다.
16. [객관식] 객관식

로그가 print보다 긴 분석에서 유용한 이유는?

선택지 print는 숫자를 못 출력하기 때문입니다. 단계별 실행 기록과 오류 맥락을 체계적으로 남길 수 있기 때문입니다. 로그는 항상 그림 파일이기 때문입니다. 로그는 Git을 대체하기 때문입니다.
17. [객관식] 객관식

좋은 연구 코드의 특징으로 적절한 것은?

선택지 읽기 쉽고, 테스트 가능하며, 오류를 추적할 수 있습니다. 무조건 한 줄로만 작성됩니다. 모든 변수명이 tmp입니다. 오류를 전부 숨깁니다.
18. [객관식] 객관식

코드 리뷰가 유용한 이유로 적절한 것은?

선택지 모든 코드를 삭제하기 위해서입니다. 작은 테스트 데이터는 실제 분석 코드 검증에 도움이 되지 않는다는 해석 다른 사람이 논리 오류나 재현성 문제를 발견할 수 있기 때문입니다. FASTA 품질 점수를 바꾸기 위해서입니다.
19. [객관식] 객관식

재사용 가능한 분석 함수의 장점은?

선택지 항상 더 많은 오류를 만듭니다. 같은 로직을 여러 데이터에 안정적으로 적용할 수 있습니다. 데이터를 읽지 못하게 합니다. 환경관리를 금지합니다.
20. [객관식] 객관식

소프트웨어 공학이 계산생물학에서 중요한 이유는?

선택지 코드는 연구 결과와 무관하기 때문입니다. 생물정보학은 코드를 쓰지 않기 때문입니다. 모든 분석은 손계산만 하기 때문입니다. 코드가 분석 과정이므로 코드 품질이 결과 신뢰도와 연결되기 때문입니다.
21. [객관식] 객관식

다음 코드가 위험한 이유는?

선택지 항상 더 정확한 결과를 만든다. 파일을 자동으로 백업한다. 예외를 모두 논문 형식으로 바꾼다. 오류를 숨겨 분석이 실패했는데도 성공처럼 보일 수 있다.
22. [객관식] 객관식

입력 파일에 gene, count 열이 있는지 검사하는 이유는?

선택지 열 검사는 항상 결과를 왜곡한다. 예상한 스키마가 아니면 잘못된 분석을 일찍 중단하기 위해서이다. p-value를 더 작게 만들기 위해서이다. read depth를 높이기 위해서이다.
23. [객관식] 객관식

테스트하기 쉬운 함수의 특징은?

선택지 모든 일을 한 함수에서 처리한다. 외부 파일 경로를 무조건 하드코딩한다. 입력과 출력이 명확하고 한 가지 일을 한다. 오류를 모두 숨긴다.
24. [객관식] 객관식

logging.info("start QC") 같은 로그가 유용한 이유는?

선택지 긴 분석에서 어느 단계가 언제 실행됐는지 기록할 수 있기 때문이다. 로그는 FASTQ 품질 점수를 높인다. 로그가 있으면 테스트가 필요 없다. 로그는 항상 화면 색을 바꾼다.
25. [객관식] 객관식

파일 경로를 코드에 직접 박아 넣는 hardcoding의 문제는?

선택지 항상 실행 속도가 100배 느려진다. Python 문법상 절대 불가능하다. Git commit을 할 수 없게 만든다. 다른 컴퓨터나 다른 프로젝트에서 경로가 달라지면 코드가 깨지기 쉽다.
26. [객관식] 객관식

작은 예제 데이터로 테스트하는 이유는?

선택지 작은 데이터만 논문에 쓸 수 있기 때문이다. 예상 결과를 손으로 확인할 수 있어 함수 오류를 빨리 찾기 쉽기 때문이다. 큰 데이터는 항상 정확하기 때문이다. 테스트 데이터는 코드와 무관하기 때문이다.
27. [객관식] 객관식

다음 중 함수 이름으로 가장 설명적인 것은?

선택지 `f` `tmp2` `filter_low_count_genes` `doit`
28. [객관식] 객관식

분석 코드에서 설정 파일로 빼기 좋은 값은?

선택지 입력 경로, 출력 경로, QC 임계값, 스레드 수 Python 예약어 전체 운영체제 커널 코드 하드코딩된 경로와 임계값이 재사용성에 영향을 주지 않는다는 해석
29. [객관식] 객관식

“코드가 오류 없이 실행됨”만으로 부족한 이유는?

선택지 논리 오류가 있어도 프로그램은 정상 종료될 수 있기 때문이다. 정상 종료는 항상 틀렸다는 뜻이기 때문이다. 실행된 코드는 결과 파일을 만들 수 없기 때문이다. 로그 대신 화면 출력만 있으면 장기 실행 분석 추적이 충분하다는 해석
30. [객관식] 객관식

예외 처리에서 좋은 메시지의 조건은?

선택지 항상 빈 문자열이어야 한다. 모든 오류를 같은 번호로 숨긴다. 무엇이 왜 문제인지 사용자가 고칠 수 있게 알려준다. 문제 파일명을 절대 알려주지 않는다.
31. [실전] 객관식

작은 함수로 코드를 나누는 장점은?

선택지 한 기능을 따로 테스트하고 재사용하기 쉬워진다. 원본 데이터를 덮어써서 파일 수를 줄이는 것이다. 분석 결과를 해석 없이 바로 생물학적 결론으로 확정하는 것이다. 샘플 ID와 파일명을 일부러 무작위로 바꾸는 것이다.
32. [실전] 객관식

assert gc_content('GC') == 1.0의 역할은?

선택지 원본 데이터를 덮어써서 파일 수를 줄이는 것이다. 함수 결과가 기대값과 같은지 검사하는 간단한 테스트다. 분석 결과를 해석 없이 바로 생물학적 결론으로 확정하는 것이다. 샘플 ID와 파일명을 일부러 무작위로 바꾸는 것이다.
주관식 33. [응용] 주관식 · Gemini 채점

좋은 연구 코드가 가져야 할 특징을 설명하라.
주관식 34. [응용] 주관식 · Gemini 채점

함수를 작게 나누는 이유를 설명하라.
주관식 35. [응용] 주관식 · Gemini 채점

테스트가 연구 코드에서 유용한 예를 설명하라.
주관식 36. [응용] 주관식 · Gemini 채점

오류를 무조건 숨기면 안 되는 이유를 설명하라.
주관식 37. [응용] 주관식 · Gemini 채점

설정값을 코드에서 분리하는 장점을 설명하라.
주관식 38. [응용] 주관식 · Gemini 채점

소프트웨어 공학이 연구자의 실용적 습관인 이유를 설명하라.
주관식 39. [응용] 주관식 · Gemini 채점

입력 CSV에 필요한 열이 있는지 검사하는 Python 함수 예시를 작성하라.
주관식 40. [응용] 주관식 · Gemini 채점

except: pass가 생물정보학 분석 코드에서 위험한 이유를 설명하라.
주관식 41. [실습] 주관식 · Gemini 채점

서열의 GC 함량을 계산하는 함수를 작성하라.
주관식 42. [실습] 주관식 · Gemini 채점

빈 서열이 들어왔을 때 GC 함량 함수가 왜 실패할 수 있는지 설명하라.