4 분 소요

이 장에서 배울 것

이번 장에서는 확률(probability)의 기본을 배웁니다. 생물학 데이터는 불확실합니다. 시퀀싱에서 읽힌 횟수는 우연의 영향을 받고, 질병 위험도는 확정이 아니라 가능성으로 표현되며, 실험 결과에는 잡음이 섞입니다. 확률은 이런 불확실성을 숫자로 다루는 언어입니다.

핵심 용어를 먼저 정리하겠습니다.

  • 표본공간(sample space): 가능한 모든 결과의 모음입니다.
  • 사건(event): 관심 있는 결과들의 모음입니다.
  • 확률(probability): 어떤 사건이 일어날 가능성을 0과 1 사이 숫자로 나타낸 것입니다.
  • 여사건(complement): 어떤 사건이 일어나지 않는 경우입니다.
  • 조건부확률(conditional probability): 어떤 조건이 이미 주어졌을 때의 확률입니다.
  • 독립(independence): 한 사건이 다른 사건의 확률에 영향을 주지 않는 관계입니다.
  • 베이즈 정리(Bayes theorem): 조건을 바꿔서 확률을 다시 계산하는 방법입니다.

확률의 기본 생각

가장 쉬운 비유: 주사위 던지기

정육면체 주사위를 한 번 던지면 가능한 결과는 1, 2, 3, 4, 5, 6입니다. 이것이 표본공간입니다.

표본공간 = {1,2,3,4,5,6}

“짝수가 나온다”라는 사건은 {2,4,6}입니다. 가능한 결과 6개 중 3개가 짝수이므로 확률은 다음과 같습니다.

짝수가 나올 확률 = 3 / 6 = 1 / 2

확률은 어려운 마법이 아닙니다. 처음에는 “원하는 경우의 수 / 전체 경우의 수”에서 출발합니다.

확률은 0과 1 사이입니다

확률 0은 절대 일어나지 않는다는 뜻입니다. 확률 1은 반드시 일어난다는 뜻입니다. 확률 0.5는 절반 정도의 가능성을 뜻합니다.

0 ≤ 확률 ≤ 1

퍼센트로 표현하면 0.5는 50%, 0.1은 10%, 0.01은 1%입니다.

생물학에서는 0이나 1로 딱 잘라 말하기 어려운 경우가 많습니다. 어떤 변이를 가진 사람이 반드시 병에 걸리는 것은 아닐 수 있습니다. 어떤 검사 결과가 양성이라고 해서 반드시 질병이 있다는 뜻도 아닐 수 있습니다. 그래서 확률적 사고가 필요합니다.

여사건: 일어나지 않을 확률

어떤 사건 A가 일어날 확률이 0.7이라면, A가 일어나지 않을 확률은 다음과 같습니다.

1 - 0.7 = 0.3

주사위에서 짝수가 나올 확률은 1/2입니다. 짝수가 나오지 않을 확률, 즉 홀수가 나올 확률도 1/2입니다.

여사건은 질병 위험도나 검사 결과 해석에서도 자주 쓰입니다. “양성일 확률”을 알면 “양성이 아닐 확률”은 1에서 빼서 구할 수 있습니다.

조건부확률: 조건이 붙은 확률

조건부확률은 “이미 어떤 정보를 알고 있을 때”의 확률입니다.

예를 들어 카드 10장 중 빨간 카드가 4장 있고, 그중 1장이 별 표시가 있다고 합시다. 이미 “빨간 카드가 뽑혔다”는 사실을 알고 있을 때, 별 표시일 확률은 전체 10장을 기준으로 보지 않습니다. 빨간 카드 4장 안에서 봅니다.

빨간 카드 중 별 카드 확률 = 1 / 4

조건부확률은 생물정보학에서 매우 중요합니다. “변이가 있을 때 질병일 확률”, “검사가 양성일 때 실제 질병일 확률”, “특정 세포 표지자가 높을 때 어떤 세포 유형일 확률” 같은 질문이 모두 조건부확률입니다.

독립: 서로 영향을 주지 않는 경우

두 사건이 독립이면 하나가 일어나도 다른 하나의 확률이 바뀌지 않습니다. 동전을 두 번 던진다고 해 봅시다. 첫 번째가 앞면이었다고 해서 두 번째가 앞면일 확률이 바뀌지는 않습니다. 여전히 1/2입니다.

독립인 두 사건 A와 B가 함께 일어날 확률은 곱해서 구합니다.

P(A와 B) = P(A) × P(B)

예를 들어 동전을 두 번 던져 둘 다 앞면일 확률은 다음과 같습니다.

1/2 × 1/2 = 1/4

하지만 생물학에서는 많은 사건이 독립이 아닙니다. 가까운 유전적 변이들은 함께 전달될 수 있고, 여러 유전자의 발현량은 같은 조절 네트워크의 영향을 받을 수 있습니다.

베이즈 정리의 직관

베이즈 정리는 처음 보면 어렵지만, 핵심은 “새로운 증거를 보고 믿음을 업데이트한다”입니다.

예를 들어 어떤 질병이 드물다고 합시다. 검사에서 양성이 나와도, 그 검사가 완벽하지 않다면 실제로 질병일 확률은 검사 정확도뿐 아니라 질병의 기본 빈도에도 영향을 받습니다.

입문 단계에서는 복잡한 공식보다 이 감각이 중요합니다.

검사 결과 해석 = 검사 정확도 + 질병의 기본 빈도 + 조건부확률

즉, 양성이라는 말은 “가능성이 올라갔다”는 뜻이지, 항상 “확정”이라는 뜻은 아닙니다.

계산 감각 1: 기본 확률

주사위에서 5보다 큰 수는 6 하나입니다.

확률 = 1 / 6

계산 감각 2: 여사건

어떤 변이가 없는 확률이 0.8이면, 변이가 있는 확률은 다음과 같습니다.

1 - 0.8 = 0.2

계산 감각 3: 독립사건의 곱

두 독립 사건의 확률이 각각 0.5와 0.2라면 둘 다 일어날 확률은 다음과 같습니다.

0.5 × 0.2 = 0.1

계산 감각 4: 조건부확률

환자 100명 중 검사 양성이 20명이고, 그중 실제 질병이 있는 사람이 15명이라면 “양성일 때 실제 질병일 확률”은 다음과 같습니다.

15 / 20 = 0.75 = 75%

생물정보학에서 왜 중요한가

확률은 시퀀싱 오류, 변이 검출, 질병 위험도, 유전자 발현 차이, 머신러닝 예측 확률을 이해하는 데 필요합니다. 특히 생물정보학에서는 “이 결과가 우연일 가능성은 얼마나 되는가?”라는 질문을 자주 던집니다. 이 질문이 통계학으로 이어집니다.

보강: 조건부확률은 분모가 바뀌는 계산입니다

조건부확률 P(A|B)는 “B가 일어났다는 조건 안에서 A가 일어날 확률”입니다. 전체 100명 중 질병 환자가 10명이라고 해도, 검사 양성자 20명 중 질병 환자가 8명이면 P(질병|양성) = 8/20 = 0.4입니다. 조건이 붙으면 전체 100명이 아니라 양성자 20명 안에서 계산합니다.

독립과 배반은 다릅니다. 독립은 한 사건이 다른 사건의 확률에 영향을 주지 않는다는 뜻입니다. 배반은 두 사건이 동시에 일어날 수 없다는 뜻입니다. 예를 들어 한 사람이 남성인 사건과 여성인 사건은 보통 동시에 일어나지 않는 배반 관계로 볼 수 있지만, 이것을 독립이라고 부르면 안 됩니다.

진단검사 해석에서는 베이즈 사고가 중요합니다. 민감도가 높아도 질병 자체가 매우 드물면 양성 결과 중 실제 환자 비율이 생각보다 낮을 수 있습니다. 그래서 검사 결과를 해석할 때는 검사 정확도뿐 아니라 기본 빈도, 즉 사전확률도 함께 봐야 합니다.

보강 학습: 조건부확률

왜 필요한가: 조건을 알게 된 뒤 확률이 어떻게 바뀌는지 읽기 위해 필요합니다.

공식 읽기: P(A|B)=P(A∩B)/P(B). P(A|B)는 B가 일어났다는 조건에서 A가 일어날 확률입니다. 분모는 조건 집단의 크기입니다.

숫자 예시: marker 높음 20개 중 T세포가 15개면 P(T세포|marker 높음)=15/20=0.75입니다.

생물정보학에서 쓰이는 장면: 진단검사, marker 기반 세포주석, 변이 병원성 판단에서 쓰입니다.

흔한 오해와 주의점: P(A|B)P(B|A)를 혼동하면 안 됩니다. 조건의 방향이 바뀌면 분모가 바뀝니다.

핵심 정리

확률은 불확실한 사건의 가능성을 숫자로 표현하는 언어입니다. 표본공간은 가능한 모든 결과이고, 사건은 관심 있는 결과입니다. 여사건은 사건이 일어나지 않는 경우이며, 조건부확률은 조건이 주어졌을 때의 확률입니다. 독립 사건은 서로 확률에 영향을 주지 않고, 독립 사건이 함께 일어날 확률은 곱으로 계산합니다. 생물 데이터는 불확실성을 포함하므로 확률적 사고가 필수입니다.

문제 풀이

확률의 기본

0 / 45
Gemini AI 채점

주관식 답안은 Gemini API로 채점합니다. API 키는 이 브라우저에만 저장됩니다.

API KEY 미등록
  1. 1. [쉬움] 객관식

    표본공간의 뜻으로 맞는 것은?

    선택지
  2. 2. [쉬움] 객관식

    사건의 뜻으로 맞는 것은?

    선택지
  3. 3. [쉬움] 객관식

    확률의 범위로 맞는 것은?

    선택지
  4. 4. [쉬움] 객관식

    여사건의 뜻은?

    선택지
  5. 5. [계산] 객관식

    주사위에서 짝수가 나올 확률은?

    선택지
  6. 6. [계산] 객관식

    주사위에서 5보다 큰 수가 나올 확률은?

    선택지
  7. 7. [계산] 객관식

    사건 A의 확률이 0.7이면 여사건의 확률은?

    선택지
  8. 8. [계산] 객관식

    어떤 변이가 없는 확률이 0.8이면 변이가 있는 확률은?

    선택지
  9. 9. [계산] 객관식

    독립인 두 사건의 확률이 0.5와 0.2일 때 둘 다 일어날 확률은?

    선택지
  10. 10. [계산] 객관식

    동전을 두 번 던져 둘 다 앞면일 확률은?

    선택지
  11. 11. [계산] 객관식

    양성 20명 중 실제 질병 15명이면 양성일 때 질병일 확률은?

    선택지
  12. 12. [계산] 객관식

    빨간 카드 4장 중 별 카드가 1장이면 빨간 카드일 때 별 카드일 확률은?

    선택지
  13. 13. [보통] 객관식

    베이즈 정리의 직관으로 가장 적절한 것은?

    선택지
  14. 14. [보통] 객관식

    검사 양성이 항상 질병 확정을 뜻하지 않는 이유는?

    선택지
  15. 15. [보통] 객관식

    두 사건이 독립이라는 말은?

    선택지
  16. 16. [계산] 객관식

    두 독립 사건의 확률이 각각 0.4와 0.5이면 둘 다 일어날 확률은?

    선택지
  17. 17. [계산] 객관식

    확률 0.01은 퍼센트로 얼마인가?

    선택지
  18. 18. [계산] 객관식

    확률 0.5는 퍼센트로 얼마인가?

    선택지
  19. 19. [계산] 객관식

    주사위에서 1 또는 2가 나올 확률은?

    선택지
  20. 20. [계산] 객관식

    주사위에서 1이 나오지 않을 확률은?

    선택지
  21. 21. [보통] 객관식

    조건부확률에서 분모로 삼는 것은 보통 무엇인가?

    선택지
  22. 22. [보통] 객관식

    생물학 사건들이 독립이 아닐 수 있는 이유로 적절한 것은?

    선택지
  23. 23. [계산] 객관식

    검사 양성 30명 중 실제 질병 24명일 때 조건부확률은?

    선택지
  24. 24. [계산] 객관식

    사건 A 확률이 0.25일 때 A가 일어나지 않을 확률은?

    선택지
  25. 25. [쉬움] 객관식

    전체 50개 샘플 중 변이가 있는 샘플이 10개라면 변이 사건의 확률은?

    선택지
  26. 26. [쉬움] 객관식

    어떤 사건 A의 확률이 0.3이면 여사건의 확률은?

    선택지
  27. 27. [보통] 객관식

    독립인 두 사건 A, B의 확률이 각각 0.4, 0.5일 때 둘 다 일어날 확률은?

    선택지
  28. 28. [보통] 객관식

    검사 양성자 40명 중 실제 환자가 12명이다. P(질병|양성)은?

    선택지
  29. 29. [쉬움] 객관식

    100명 중 질병 환자가 5명이다. 기본 빈도, 즉 사전확률은?

    선택지
  30. 30. [보통] 객관식

    P(A|B)P(B|A)에 대한 설명으로 맞는 것은?

    선택지
  31. 31. [보통] 객관식

    동시에 일어날 수 없는 두 사건을 무엇이라고 보는가?

    선택지
  32. 32. [보통] 객관식

    사건 A와 B가 독립이고 P(A)=0.2, P(B)=0.1일 때 P(A and B)는?

    선택지
  33. 33. [쉬움] 객관식

    P(A|B)=P(A∩B)/P(B)에서 분모는?

    선택지
  34. 34. [보통] 객관식

    marker 높음 20개, 그중 T세포 15개면 P(T|marker)는?

    선택지
  35. 35. [보통] 객관식

    P(A|B)P(B|A)가 다른 이유는?

    선택지
  36. 36. [쉬움] 객관식

    검사 양성일 때 실제 질병일 확률 표기는?

    선택지
  37. 37. [어려움] 객관식

    조건부확률의 흔한 실수는?

    선택지
  38. 주관식 38. [보통] 주관식 · Gemini 채점

    확률이 생물정보학에서 필요한 이유를 설명하라.

  39. 주관식 39. [보통] 주관식 · Gemini 채점

    조건부확률의 의미를 설명하라.

  40. 주관식 40. [보통] 주관식 · Gemini 채점

    독립 사건의 의미를 설명하라.

  41. 주관식 41. [보통] 주관식 · Gemini 채점

    검사 양성이 항상 질병 확정을 뜻하지 않는 이유를 설명하라.

  42. 주관식 42. [보통] 주관식 · Gemini 채점

    조건부확률에서 “분모가 바뀐다”는 말을 예시와 함께 설명하라.

  43. 주관식 43. [보통] 주관식 · Gemini 채점

    독립과 배반의 차이를 설명하라.

  44. 주관식 44. [보통] 주관식 · Gemini 채점

    200개 세포 중 marker X가 높은 세포가 50개이고, 그중 40개가 B세포다. P(B세포|marker X 높음)을 계산하라.

  45. 주관식 45. [보통] 주관식 · Gemini 채점

    P(양성|질병)P(질병|양성)이 왜 다른 질문인지 설명하라.