부록 D18: 실험설계와 인과추론

4 분 소요

이 장에서 배울 것

이번 장에서는 실험설계(experimental design)와 인과추론(causal inference)을 배웁니다. 두 값이 함께 움직인다고 해서 하나가 다른 하나의 원인이라고 말할 수는 없습니다. 계산생물학자는 상관관계와 인과관계를 구분하고, 데이터를 어떻게 모았는지 확인해야 합니다.

핵심 용어를 먼저 정리하겠습니다.

대조군(control group): 비교 기준이 되는 집단입니다.
실험군(experimental group): 처리나 조건을 받은 집단입니다.
무작위 배정(randomization): 대상이 어느 집단에 들어갈지 우연으로 정하는 방법입니다.
교란(confounding): 제3의 요인이 원인과 결과 모두에 영향을 주어 관계를 헷갈리게 만드는 상황입니다.
인과그래프(causal graph): 변수 사이의 원인 방향을 화살표로 그린 그림입니다.
개입(intervention): 원인을 직접 바꾸어 결과가 어떻게 달라지는지 보는 행동입니다.
성향점수(propensity score): 관찰연구에서 어떤 대상이 특정 처리를 받을 가능성을 점수로 나타낸 값입니다.

실험설계와 인과추론의 기본 구조

가장 쉬운 비유: 아이스크림과 익사 사고

여름에는 아이스크림 판매량도 늘고 익사 사고도 늘 수 있습니다. 그렇다고 아이스크림이 익사 사고를 일으킨다고 말하면 이상합니다. 둘 다 더운 날씨의 영향을 받기 때문입니다. 여기서 더운 날씨는 교란변수입니다.

이 예시는 상관관계가 인과관계를 뜻하지 않는다는 점을 보여줍니다. 두 값이 같이 변해도, 한쪽이 다른 쪽의 원인인지, 둘 다 제3의 요인 때문에 변한 것인지 따져야 합니다.

대조군과 실험군

약물이 효과가 있는지 보려면 약물을 받은 사람만 보면 안 됩니다. 약물을 받지 않은 대조군과 비교해야 합니다.

실험군: 약물을 받은 집단
대조군: 약물을 받지 않은 비교 집단

두 집단의 차이가 약물 때문인지 보려면, 처음부터 두 집단이 최대한 비슷해야 합니다. 그렇지 않으면 집단 차이인지 약물 효과인지 구분하기 어렵습니다.

무작위 배정

무작위 배정은 대상을 실험군과 대조군에 우연히 나누는 방법입니다. 이렇게 하면 나이, 건강 상태, 생활습관 같은 요인이 두 집단에 대체로 비슷하게 섞일 가능성이 커집니다.

무작위 배정은 인과관계를 판단하는 데 매우 강력한 도구입니다. 물론 실제 생물학과 의학 연구에서는 윤리와 비용 문제 때문에 항상 무작위 실험을 할 수는 없습니다.

교란

교란은 원인처럼 보이는 변수와 결과 사이의 관계를 헷갈리게 만드는 제3의 요인입니다.

예를 들어 특정 유전자 발현량이 질병과 관련 있어 보인다고 합시다. 그런데 알고 보니 환자군은 나이가 많고 정상군은 젊었습니다. 나이가 유전자 발현량에도 영향을 주고 질병에도 영향을 준다면, 나이는 교란변수일 수 있습니다.

그래서 분석할 때는 가능한 교란변수를 찾아 회귀모델의 공변량으로 넣거나, 연구 설계 단계에서 집단을 잘 맞추어야 합니다.

인과그래프

인과그래프는 변수 사이의 원인 방향을 화살표로 그린 그림입니다.

나이 → 질병
나이 → 유전자 발현
유전자 발현 → 질병 ?

이렇게 그려 보면 어떤 변수가 교란변수인지, 어떤 변수를 조정해야 하는지 생각하기 쉬워집니다. 인과그래프는 복잡한 수식을 시작하기 전에 생각을 정리하는 지도입니다.

개입

인과관계를 가장 강하게 확인하려면 원인을 직접 바꾸어 보고 결과가 달라지는지 봐야 합니다. 이것을 개입이라고 합니다. 예를 들어 유전자를 억제했더니 세포 증식이 줄었다면, 그 유전자가 세포 증식에 원인적으로 관련될 가능성이 커집니다.

관찰만으로는 인과관계를 확정하기 어렵습니다. 그래서 생물학에서는 계산 분석 후 실험 검증이 중요합니다.

성향점수의 직관

관찰연구에서는 무작위 배정을 할 수 없는 경우가 많습니다. 이때 어떤 사람이 처리를 받을 가능성을 점수로 계산해 비슷한 사람끼리 비교하려는 방법이 있습니다. 이것이 성향점수입니다.

입문 단계에서는 공식을 깊게 외울 필요는 없습니다. 성향점수는 “처리를 받을 가능성이 비슷한 사람끼리 비교해 공정성을 높이려는 장치”라고 이해하면 됩니다.

계산 감각

이 장에서는 간단한 비교 계산을 다룹니다.

평균 차이 = 실험군 평균 - 대조군 평균
위험차 = 실험군 위험도 - 대조군 위험도
상대위험도 = 실험군 위험도 / 대조군 위험도

예를 들어 실험군 평균이 12, 대조군 평균이 8이면 평균 차이는 4입니다. 실험군 위험도가 0.2, 대조군 위험도가 0.1이면 위험차는 0.1이고 상대위험도는 2입니다. 이것은 실험군 위험도가 대조군의 2배라는 뜻입니다.

다만 이런 숫자만으로 인과관계가 자동으로 증명되지는 않습니다. 연구 설계와 교란 가능성을 함께 봐야 합니다.

생물정보학에서 왜 중요한가

생물정보학 데이터는 관찰 데이터인 경우가 많습니다. 예를 들어 환자 데이터를 모아서 분석하면 유전자 발현과 질병의 관계를 찾을 수는 있지만, 그것이 원인인지 결과인지 교란 때문인지 조심해야 합니다. 계산 결과가 좋아 보여도 실험설계가 약하면 결론도 약합니다.

보강: 교란변수, 매개변수, 콜라이더를 구분하기

인과추론에서 모든 변수를 무조건 보정하면 안전할 것 같지만 그렇지 않습니다. 어떤 변수는 보정해야 하고, 어떤 변수는 보정하면 오히려 해석이 망가질 수 있습니다.

교란변수(confounder): 원인과 결과 모두에 영향을 주는 변수
매개변수(mediator): 원인이 결과에 영향을 주는 중간 경로에 있는 변수
콜라이더(collider): 두 원인의 영향을 함께 받는 변수

예를 들어 나이가 유전자 발현에도 영향을 주고 질병에도 영향을 준다면 나이는 교란변수일 수 있습니다. 이 경우 나이를 보정하는 것이 도움이 됩니다. 반대로 유전자 변화가 단백질 농도를 바꾸고, 단백질 농도가 질병을 바꾼다면 단백질 농도는 중간 경로의 매개변수일 수 있습니다. 연구 질문이 “총효과”라면 매개변수를 무조건 보정하면 효과 일부를 지워 버릴 수 있습니다.

콜라이더는 더 조심해야 합니다. 어떤 병원에 입원했는지라는 변수가 질병 심각도와 검사 접근성의 영향을 동시에 받는다면, 입원 환자만 분석하는 순간 이상한 가짜 관계가 생길 수 있습니다.

배치 효과도 인과 해석을 망칠 수 있다

생물정보학에서는 실험 배치가 큰 문제입니다. 환자군 샘플은 월요일에 처리하고 대조군 샘플은 금요일에 처리했다면, 관찰된 차이가 질병 때문인지 실험 날짜 때문인지 구분하기 어렵습니다.

실험 날짜 → 측정값
질병군 여부 → 실험 날짜
질병군 여부 → 측정값 ?

이런 구조에서는 실험 날짜가 결과 해석을 심하게 흔들 수 있습니다. 좋은 실험설계는 분석 단계보다 앞에서 시작됩니다. 샘플을 섞어서 처리하고, 가능한 교란요인을 기록하고, 분석 때 공변량으로 고려해야 합니다.

계산 결과와 인과 결론의 거리

상대위험도 2가 나왔다고 합시다. 이것은 실험군의 위험도가 대조군의 2배라는 계산 결과입니다. 하지만 그 2배가 처리 때문인지, 두 집단의 원래 차이 때문인지는 연구 설계를 봐야 합니다. 무작위 배정이 잘 된 실험이면 인과 해석이 강해지고, 관찰연구라면 교란 가능성을 더 조심해야 합니다.

계산생물학에서 좋은 결론은 숫자만 큰 결론이 아니라, 설계와 분석이 함께 받쳐 주는 결론입니다.

보강 학습: 실험설계와 인과추론

왜 필요한가: 통계 분석으로도 고치기 어려운 편향과 교란을 실험 시작 단계에서 줄이기 위해 필요합니다.

공식 읽기: 관찰된 차이 = 생물학적 효과 + 교란 + batch + 잡음. 이 식은 엄밀한 공식이라기보다 해석 틀입니다. 관찰된 차이에는 원하는 효과 외의 요인이 섞일 수 있습니다.

숫자 예시: 처리군은 월요일, 대조군은 금요일에만 처리했다면 조건 효과와 요일/batch 효과가 섞입니다.

생물정보학에서 쓰이는 장면: RNA-seq 실험 배치, 환자군/대조군 모집, 약물 처리 실험 설계에서 중요합니다.

흔한 오해와 주의점: 나쁜 설계를 통계 보정으로 완전히 구제할 수 없습니다. 조건과 batch가 완전히 겹치면 분리할 정보가 부족합니다.

핵심 정리

실험설계와 인과추론은 “관계가 보인다”에서 “원인이라고 말할 수 있는가”로 넘어가기 위한 도구입니다. 대조군, 실험군, 무작위 배정은 공정한 비교를 돕습니다. 교란은 관계 해석을 헷갈리게 만드는 제3의 요인입니다. 인과그래프는 변수 사이의 원인 방향을 정리하는 지도입니다. 평균 차이, 위험차, 상대위험도 같은 계산은 유용하지만, 인과관계 판단은 항상 연구 설계와 함께 해야 합니다.

Gemini AI 채점

주관식 답안은 Gemini API로 채점합니다. API 키는 이 브라우저에만 저장됩니다.

API KEY 미등록

1. [쉬움] 객관식

대조군의 설명으로 가장 적절한 것은?

선택지 비교 기준이 되는 집단이다. 항상 처리를 받은 집단이다. 교란변수의 다른 이름이다. 그래프의 y축이다.
2. [쉬움] 객관식

실험군의 설명으로 가장 적절한 것은?

선택지 항상 아무 처리도 받지 않은 집단이다. 처리나 조건을 받은 집단이다. 표준오차의 다른 이름이다. 인과그래프의 색깔이다.
3. [보통] 객관식

무작위 배정의 목적에 가장 가까운 것은?

선택지 항상 결과를 조작하기 위해서이다. 표본수를 0으로 만들기 위해서이다. 집단 차이를 우연히 비슷하게 섞어 공정한 비교를 돕기 위해서이다. 교란을 일부러 늘리기 위해서이다.
4. [보통] 객관식

교란의 설명으로 가장 적절한 것은?

선택지 두 변수 사이에 아무 관련도 없는 상황이다. 평균 차이 계산식이다. 항상 좋은 설계이다. 제3의 요인이 원인 후보와 결과 모두에 영향을 주어 관계를 헷갈리게 하는 상황이다.
5. [계산] 객관식

실험군 평균 12, 대조군 평균 8이면 평균 차이는?

선택지 4 8 12 20
6. [계산] 객관식

실험군 평균 7, 대조군 평균 10이면 평균 차이는?

선택지 3 -3 7 17
7. [계산] 객관식

실험군 위험도 0.2, 대조군 위험도 0.1이면 위험차는?

선택지 0.2 0.3 0.1 2
8. [계산] 객관식

실험군 위험도 0.3, 대조군 위험도 0.1이면 상대위험도는?

선택지 0.2 0.3 0.4 3
9. [계산] 객관식

실험군 위험도 0.2, 대조군 위험도 0.1이면 상대위험도는?

선택지 2 0.1 0.2 0.3
10. [계산] 객관식

실험군 위험도 0.4, 대조군 위험도 0.2이면 위험차는?

선택지 2 0.2 0.6 0.4
11. [보통] 객관식

상관관계와 인과관계에 대한 설명으로 적절한 것은?

선택지 상관관계는 항상 인과관계이다. 인과관계는 절대 실험으로 확인할 수 없다. 두 값이 함께 움직인다고 해서 하나가 다른 하나의 원인이라고 바로 말할 수는 없다. 상관관계가 있으면 교란은 불가능하다.
12. [쉬움] 객관식

인과그래프의 역할로 적절한 것은?

선택지 모든 계산을 금지하는 것이다. 표본평균만 구하는 것이다. p값을 크게 만드는 것이다. 변수 사이의 원인 방향을 화살표로 정리하는 것이다.
13. [보통] 객관식

개입의 설명으로 적절한 것은?

선택지 원인 후보를 직접 바꾸어 결과가 달라지는지 보는 행동이다. 결과만 몰래 지우는 것이다. 표본을 무조건 줄이는 것이다. 그래프 축 이름을 바꾸는 것이다.
14. [보통] 객관식

성향점수의 직관으로 적절한 것은?

선택지 항상 질병 위험도 그 자체이다. 처리를 받을 가능성이 비슷한 대상끼리 비교해 공정성을 높이려는 장치이다. 모든 교란을 자동으로 완전히 없앤다. 표본평균의 다른 이름이다.
15. [계산] 객관식

실험군 평균 15, 대조군 평균 9이면 평균 차이는?

선택지 9 15 6 24
16. [계산] 객관식

실험군 평균 5, 대조군 평균 9이면 평균 차이는?

선택지 4 5 14 -4
17. [계산] 객관식

실험군 위험도 0.5, 대조군 위험도 0.25이면 상대위험도는?

선택지 2 0.25 0.5 0.75
18. [계산] 객관식

실험군 위험도 0.15, 대조군 위험도 0.05이면 상대위험도는?

선택지 0.1 3 0.2 0.75
19. [계산] 객관식

실험군 위험도 0.6, 대조군 위험도 0.4이면 위험차는?

선택지 1.5 0.4 0.2 1.0
20. [계산] 객관식

실험군 평균 20, 대조군 평균 20이면 평균 차이는?

선택지 1 20 40 0
21. [보통] 객관식

아이스크림 판매량과 익사 사고 예시에서 더운 날씨는 무엇에 가까운가?

선택지 교란변수 대조군 검정통계량 신뢰구간
22. [보통] 객관식

관찰연구에서 인과관계를 조심해야 하는 이유는?

선택지 관찰 데이터에는 숫자가 없기 때문이다. 무작위 배정이 없어서 교란이 남아 있을 수 있기 때문이다. 모든 관찰연구가 항상 틀리기 때문이다. 대조군을 절대 만들 수 없기 때문이다.
23. [쉬움] 객관식

대조군이 필요한 이유로 가장 적절한 것은?

선택지 모든 데이터를 두 배로 늘리기 위해서이다. 항상 p값을 0으로 만들기 위해서이다. 실험군 변화가 처리 때문인지 비교할 기준이 필요하기 때문이다. 교란을 일부러 만들기 위해서이다.
24. [보통] 객관식

평균 차이와 상대위험도 같은 숫자만으로 인과가 자동 증명되지 않는 이유는?

선택지 그 숫자들은 계산할 수 없기 때문이다. 항상 0이 나오기 때문이다. 실험군과 대조군이 같은 말이기 때문이다. 교란과 연구 설계를 함께 따져야 하기 때문이다.
25. [계산] 객관식

실험군 평균 14, 대조군 평균 9일 때 평균 차이는?

선택지 5 23 1.56 -5
26. [계산] 객관식

실험군 위험도 0.30, 대조군 위험도 0.10일 때 상대위험도는?

선택지 0.20 3 0.03 0.40
27. [계산] 객관식

실험군 위험도 0.25, 대조군 위험도 0.15일 때 위험차는?

선택지 0.40 1.67 0.10 0.60
28. [사례 판단] 객관식

나이가 유전자 발현에도 영향을 주고 질병에도 영향을 준다면 나이는 무엇에 가까운가?

선택지 매개변수만 해당한다 결과변수만 해당한다 콜라이더만 해당한다 교란변수일 수 있다
29. [계산] 객관식

처리군 50명 중 10명, 대조군 50명 중 5명에게 부작용이 있었다. 처리군 위험도는?

선택지 0.20 0.10 2.0 0.05
30. [사례 판단] 객관식

환자군 샘플은 월요일, 대조군 샘플은 금요일에만 처리했다. 가장 우려되는 것은?

선택지 평균 계산 불가 배치 효과가 질병 차이처럼 보일 수 있음 상대위험도 공식 사용 불가 모든 인과관계가 자동 증명됨
31. [계산] 객관식

대조군 위험도 0.08, 실험군 위험도 0.12이면 상대위험도와 위험차는?

선택지 0.04와 1.5 1.5와 0.20 1.5와 0.04 0.20과 1.5
32. [개념 구분] 객관식

무작위 배정의 주된 목적은?

선택지 p값을 항상 0으로 만들기 표본수를 줄이기 모든 변수 측정을 생략하기 알려진 요인과 알려지지 않은 요인을 두 집단에 대체로 비슷하게 섞기
33. [보통] 객관식

처리군은 월요일, 대조군은 금요일 실험이면 문제는?

선택지 샘플 수가 무한대다. 조건과 요일/batch가 섞일 수 있다. p-value 자동 보정 유전자가 사라진다.
34. [쉬움] 객관식

교란변수란?

선택지 항상 무시할 변수 그래프 제목 원인 후보와 결과 모두에 영향 줄 수 있는 변수 염기 한 글자
35. [보통] 객관식

무작위화 목적은?

선택지 모든 샘플을 같은 환자로 만든다. 결과를 미리 정한다. 측정을 하지 않는다. 차이가 특정 조건에 몰리는 것을 줄인다.
36. [어려움] 객관식

조건과 batch가 완전히 겹치면?

선택지 분석으로 두 효과를 안정적으로 분리하기 어렵다. 항상 정확해진다. 이름만 바꾸면 된다. 유전자 수가 줄어든다.
37. [쉬움] 객관식

반복이 필요한 이유는?

선택지 샘플 수를 0으로 만들기 위해 우연 변동과 실제 효과를 구분하기 위해 p-value를 크게 만들기 위해 실험을 숨기기 위해
주관식 38. [보통] 주관식 · Gemini 채점

상관관계와 인과관계의 차이를 설명하라.
주관식 39. [보통] 주관식 · Gemini 채점

대조군과 실험군이 필요한 이유를 설명하라.
주관식 40. [보통] 주관식 · Gemini 채점

교란변수가 왜 위험한지 설명하라.
주관식 41. [보통] 주관식 · Gemini 채점

계산 분석 뒤 실험 검증이 중요한 이유를 설명하라.
주관식 42. [심화] 주관식 · Gemini 채점

계산 결과 상대위험도가 2로 나왔을 때, 왜 이것만으로 인과관계를 확정할 수 없는지 설명하라.
주관식 43. [보통] 주관식 · Gemini 채점

질병군은 한 병원, 정상군은 다른 병원에서만 채취되었다. 문제와 보완 방향을 설명하라.
주관식 44. [보통] 주관식 · Gemini 채점

좋은 실험설계가 p-value보다 먼저 중요하다는 말을 설명하라.