챕터 16 선수지식: 인공지능과 의생명정보학의 미래에 들어가기 전 알아야 할 것

28 분 소요

1. 16챕터는 무엇을 하려는 장인가요?

16챕터는 “의생명정보학에서 AI는 무엇을 대신하고, 무엇을 새롭게 가능하게 할까요?”라는 질문을 다룹니다.

앞선 장들에서 우리는 유전체, 전사체, 단백체, 단일세포 데이터, 조직 이미지, 공간 데이터 같은 다양한 데이터를 봤습니다. 이런 데이터들은 사람 눈으로 하나하나 비교하기에는 너무 크고 복잡합니다. 예를 들어 사람의 유전체는 수십억 개의 염기 정보를 포함하고, 단일세포 전사체 데이터는 수천~수만 개의 세포와 수천 개의 유전자를 동시에 다룹니다. 병리 이미지는 한 장만 해도 엄청난 픽셀 정보를 가집니다.

AI는 이런 복잡한 데이터 속에서 패턴을 찾는 도구입니다. 단순히 “똑똑한 컴퓨터”라고 생각하면 너무 막연합니다. 16장을 읽을 때는 AI를 다음처럼 이해하면 좋습니다.

AI는 많은 예시를 보고, 그 안에서 반복되는 특징을 찾아, 새로운 데이터에 대해 예측하거나 분류하는 계산 방법입니다.

AI 기반 의생명정보학 분석 흐름

예를 들어 AI는 암 조직 이미지를 보고 암세포가 있을 가능성을 예측할 수 있습니다. 유전체 변이 정보를 보고 어떤 질병과 관련될 가능성을 계산할 수 있습니다. 단백질의 아미노산 서열을 보고 3차원 구조를 예측할 수도 있습니다. 여러 종류의 오믹스 데이터를 함께 보고 환자군을 나누거나 치료 반응을 예측할 수도 있습니다.

하지만 중요한 점이 있습니다. AI는 마법이 아닙니다. AI는 데이터에서 배웁니다. 데이터가 잘못되어 있으면 잘못 배울 수 있고, 학습한 환경과 실제 환경이 다르면 엉뚱한 판단을 할 수 있습니다. 그래서 16장의 핵심은 “AI가 대단하다”가 아니라, 의생명 데이터의 특성을 이해한 상태에서 AI를 조심스럽게 쓰는 법입니다.

2. 인공지능, 머신러닝, 딥러닝은 어떻게 다른가요?

이 세 단어는 자주 섞여 쓰이지만, 처음에는 큰 포함 관계로 이해하면 됩니다.

인공지능(AI)은 가장 넓은 말입니다. 사람이 하는 지적인 일을 컴퓨터가 하도록 만드는 모든 시도를 포함합니다. 규칙 기반 시스템도 AI라고 부를 수 있습니다. 예를 들어 “체온이 38도 이상이면 발열로 표시한다” 같은 규칙을 컴퓨터에 넣어도 넓은 의미에서는 AI적 접근이라고 볼 수 있습니다.

머신러닝(machine learning)은 AI 안에 들어가는 한 분야입니다. 사람이 모든 규칙을 직접 쓰는 대신, 컴퓨터가 데이터에서 규칙을 배우게 합니다. 예를 들어 수많은 환자 데이터를 보여주고 “이런 패턴을 가진 사람은 특정 질환 위험이 높구나”를 모델이 배우게 하는 식입니다.

딥러닝(deep learning)은 머신러닝 안에 들어가는 한 분야입니다. 여러 층으로 쌓인 인공신경망을 사용해 복잡한 패턴을 학습합니다. 이미지, 음성, 자연어, 유전체 데이터처럼 복잡한 데이터에서 강력한 성능을 보이는 경우가 많습니다.

머신러닝과 딥러닝의 감각

초보자는 이렇게 기억하면 됩니다.

용어	쉬운 설명
인공지능	컴퓨터가 지능적인 일을 하게 만드는 큰 분야입니다.
머신러닝	데이터를 보고 판단 기준을 배우는 방법입니다.
딥러닝	여러 층의 신경망으로 복잡한 특징을 배우는 머신러닝입니다.

예전에는 사람이 직접 특징을 정하는 경우가 많았습니다. “세포핵의 크기”, “색의 진하기”, “유전자 발현량의 평균”처럼 사람이 생각한 특징을 뽑아 모델에 넣었습니다. 딥러닝은 이런 특징을 모델이 스스로 더 많이 찾아낼 수 있다는 점에서 강력합니다.

하지만 딥러닝 모델이 찾아낸 특징은 사람이 바로 이해하기 어려울 때가 많습니다. 그래서 의학 분야에서는 설명 가능성, 검증, 재현성, 안전성이 매우 중요합니다.

3. 데이터는 AI가 먹는 재료입니다

AI를 이해하려면 먼저 데이터가 무엇인지 알아야 합니다. 데이터는 관찰한 사실을 숫자나 기호로 기록한 것입니다. 사람의 키, 혈압, 유전자 발현량, CT 이미지 픽셀값, DNA 염기서열, 약물 반응 여부가 모두 데이터가 될 수 있습니다.

컴퓨터는 세상을 직접 이해하지 못합니다. 컴퓨터는 숫자를 처리합니다. 그래서 의생명 현상을 AI에 넣으려면 먼저 숫자 형태로 바꾸어야 합니다. 이를 표현(representation)이라고 생각하면 됩니다.

예를 들어 DNA 서열 ACGT는 사람이 보기에는 글자 네 개입니다. 하지만 컴퓨터 모델에 넣으려면 A, C, G, T를 숫자 벡터로 바꾸어야 합니다. 병리 이미지는 픽셀의 밝기와 색상값으로 바뀝니다. 환자 기록은 나이, 진단 코드, 검사 수치, 약물 처방 정보 같은 표 형태의 데이터로 바뀔 수 있습니다.

여기서 중요한 것은 “숫자로 바꾸는 방식”이 모델 성능에 큰 영향을 준다는 점입니다. 같은 환자 정보라도 어떤 항목을 선택하느냐, 결측값을 어떻게 처리하느냐, 숫자의 범위를 어떻게 맞추느냐에 따라 결과가 달라질 수 있습니다.

예를 들어 키는 cm 단위로 150~190 정도의 숫자를 가질 수 있고, 유전자 발현량은 0부터 수만까지 갈 수도 있습니다. 이런 숫자 범위가 너무 다르면 모델이 특정 변수에 과도하게 끌릴 수 있습니다. 그래서 정규화(normalization), 표준화(standardization), 결측값 처리, 이상치 처리 같은 전처리 과정이 필요합니다.

앞선 전사체학과 단일세포 분석에서 정규화, 차원 축소, 클러스터링 같은 개념을 배웠습니다. 자세한 설명은 9~12장 선수지식을 참고하시면 됩니다. 16장에서는 그 데이터 전처리 흐름 위에 AI 모델이 올라간다고 생각하면 됩니다.

4. 지도학습과 비지도학습의 차이를 알아야 합니다

AI 모델을 배울 때 가장 먼저 나오는 구분이 지도학습과 비지도학습입니다.

지도학습(supervised learning)은 정답이 있는 데이터를 가지고 배우는 방식입니다. 예를 들어 환자 이미지와 함께 “암 있음/암 없음”이라는 정답표가 붙어 있다면, 모델은 이미지를 보고 정답을 맞히는 연습을 합니다. 시험 문제와 정답지를 같이 주고 공부시키는 것과 비슷합니다.

비지도학습(unsupervised learning)은 정답표 없이 데이터 자체의 구조를 찾는 방식입니다. 예를 들어 단일세포 RNA 데이터에서 세포들이 자연스럽게 몇 개의 무리로 나뉘는지 찾는 클러스터링이 여기에 가깝습니다. 선생님이 정답을 알려주지 않고, 학생이 카드 묶음을 스스로 비슷한 것끼리 나누는 것과 비슷합니다.

의생명정보학에서는 둘 다 중요합니다. 질병 진단, 치료 반응 예측, 세포 유형 분류처럼 정답이 어느 정도 있는 문제는 지도학습으로 다룰 수 있습니다. 반면 새로운 세포군 찾기, 환자군 나누기, 데이터 구조 탐색처럼 정답이 명확하지 않은 문제는 비지도학습이 필요합니다.

그리고 실제 연구에서는 둘이 섞이는 경우도 많습니다. 예를 들어 먼저 비지도학습으로 환자군을 나누고, 그다음 그 군이 생존율이나 치료 반응과 관련 있는지 확인할 수 있습니다.

5. 신경망은 “많은 조절 손잡이가 달린 예측 기계”입니다

딥러닝의 중심에는 인공신경망(neural network)이 있습니다. 이름 때문에 인간 뇌를 그대로 흉내 낸 것처럼 느껴질 수 있지만, 초보 단계에서는 그냥 많은 숫자 조절 손잡이를 가진 예측 기계라고 이해하면 됩니다.

신경망은 입력을 받아 여러 계산 층을 거친 뒤 출력을 냅니다. 입력이 환자의 유전자 발현량이라면 출력은 암 유형일 수 있습니다. 입력이 병리 이미지라면 출력은 종양 확률일 수 있습니다. 입력이 단백질 서열이라면 출력은 구조 예측일 수 있습니다.

신경망의 아주 단순한 구조

여기서 가중치(weight)는 각 정보가 얼마나 중요한지를 나타내는 숫자입니다. 모델 학습은 이 가중치를 조금씩 바꾸면서 정답에 더 가까운 결과가 나오도록 조정하는 과정입니다.

비유하면, 요리사가 국물 맛을 맞추기 위해 소금, 간장, 설탕, 물의 양을 조금씩 조절하는 것과 비슷합니다. 처음에는 맛이 이상할 수 있습니다. 하지만 여러 번 맛을 보고 조절하면 점점 목표 맛에 가까워집니다. 딥러닝 모델도 예측 결과와 정답의 차이를 보고 내부 숫자들을 조금씩 조절합니다.

이 차이를 나타내는 것이 손실 함수(loss function)입니다. 손실 함수는 모델이 얼마나 틀렸는지를 숫자로 나타냅니다. 손실이 크면 많이 틀린 것이고, 손실이 작으면 덜 틀린 것입니다.

경사하강법(gradient descent)은 손실을 줄이는 방향으로 가중치를 조금씩 움직이는 방법입니다. 산 위에서 눈을 감고 내려간다고 상상해 보세요. 발밑의 기울기를 느끼고 조금씩 낮은 곳으로 내려가면 언젠가 골짜기에 가까워집니다. 모델 학습도 손실이라는 산에서 낮은 지점을 찾아가는 과정과 비슷합니다.

6. 과적합은 “문제집 답을 외웠지만 새 문제를 못 푸는 상태”입니다

AI 모델이 학습 데이터를 너무 잘 맞히는 것이 항상 좋은 것은 아닙니다. 모델이 학습 데이터의 진짜 규칙을 배운 것이 아니라, 그 데이터에만 있는 우연한 특징까지 외워버릴 수 있기 때문입니다. 이를 과적합(overfitting)이라고 합니다.

예를 들어 어떤 학생이 수학 개념을 이해하지 않고 문제집의 답만 외웠다고 해보겠습니다. 같은 문제집에서는 100점을 받을 수 있습니다. 하지만 숫자만 살짝 바뀐 새 문제가 나오면 틀릴 수 있습니다. 과적합된 모델도 마찬가지입니다.

의생명정보학에서 과적합은 특히 위험합니다. 환자 수는 적은데 변수는 매우 많은 경우가 흔하기 때문입니다. 유전자 수는 수만 개일 수 있지만, 환자 샘플은 수십 명에 불과할 수 있습니다. 이 경우 모델은 진짜 생물학적 신호가 아니라 우연한 잡음을 학습할 수 있습니다.

그래서 모델을 평가할 때는 학습에 사용하지 않은 검증 데이터, 테스트 데이터가 필요합니다. 더 나아가 다른 병원, 다른 장비, 다른 인구집단에서 얻은 외부 데이터로도 검증해야 합니다. 의료 AI에서는 “내 데이터에서 잘 됐다”만으로는 부족합니다. 실제 환경에서도 안전하게 작동하는지 확인해야 합니다.

7. 오토인코더와 잠재공간은 “복잡한 데이터를 짧게 요약하는 방법”입니다

16장에서 오토인코더(autoencoder)와 잠재공간(latent space)이라는 말이 나옵니다. 이 개념은 11장의 차원 축소와 연결됩니다. 자세한 차원 축소 설명은 10~12장 선수지식을 참고하시면 됩니다. 여기서는 16장에 필요한 만큼만 설명하겠습니다.

오토인코더는 입력 데이터를 한 번 작게 압축했다가 다시 복원하는 신경망입니다. 중요한 점은 중간에 데이터가 아주 짧은 표현으로 줄어든다는 것입니다. 이 짧은 표현을 잠재 표현(latent representation)이라고 부릅니다.

오토인코더의 기본 아이디어

비유하면 긴 글을 한 문단으로 요약한 뒤, 그 요약을 보고 다시 원래 내용을 어느 정도 복원하는 연습을 하는 것과 비슷합니다. 요약이 너무 부실하면 원문을 복원할 수 없습니다. 반대로 요약이 핵심을 잘 담고 있으면 원문과 비슷하게 되살릴 수 있습니다.

의생명정보학에서는 오토인코더를 사용해 복잡한 유전자 발현 데이터를 더 낮은 차원의 잠재공간으로 옮길 수 있습니다. 그러면 세포나 환자를 비교하기 쉬워지고, 잡음을 줄이거나, 중요한 생물학적 패턴을 찾는 데 도움이 될 수 있습니다.

잠재공간은 눈에 보이지 않는 특징의 지도라고 생각하면 됩니다. 예를 들어 겉으로는 수천 개 유전자의 발현량이지만, 모델 내부에서는 “면역 활성도”, “세포 증식 정도”, “염증 반응 정도” 같은 더 추상적인 축으로 정리될 수 있습니다. 물론 모델이 실제로 그렇게 이해했는지는 추가 해석이 필요합니다.

오토인코더 수식은 “요약했다가 다시 복원하기”로 읽으면 됩니다

본편에서는 오토인코더가 E(x) → z, D(z) → x'처럼 표현될 수 있습니다. 여기서 x는 원래 데이터, E는 인코더, z는 잠재공간의 짧은 요약, D는 디코더, x'는 다시 복원한 데이터입니다.

오토인코더의 목표는 원래 데이터 x와 복원 데이터 x'가 최대한 비슷해지도록 학습하는 것입니다. 그래서 ||x - x'|| 같은 표현이 나오면 “원본과 복원본의 차이를 줄이려는구나”라고 읽으면 됩니다.

PCA, NMF, 오토인코더, VAE, GAN은 모두 복잡한 데이터를 더 이해하기 쉬운 형태로 바꾸려는 방법입니다. 차이는 방식입니다. PCA와 NMF는 비교적 전통적인 수학적 분해 방법이고, 오토인코더와 VAE는 신경망으로 잠재공간을 배우며, GAN은 생성자와 판별자가 경쟁하면서 그럴듯한 데이터를 만들도록 학습합니다.

8. CNN, RNN, Transformer는 각각 잘하는 일이 다릅니다

딥러닝 모델에는 여러 종류가 있습니다. 처음부터 수학적으로 깊게 이해할 필요는 없습니다. 우선 “어떤 데이터에 잘 맞는 도구인가”를 구분하면 됩니다.

CNN, 즉 합성곱 신경망은 이미지 분석에 강합니다. 이미지는 가까운 픽셀끼리 의미가 있습니다. 세포핵의 모양, 조직의 경계, 염색된 부분의 패턴처럼 작은 지역 특징이 중요합니다. CNN은 이런 작은 무늬를 필터로 훑으며 특징을 뽑아냅니다.

RNN, 즉 순환 신경망은 순서가 있는 데이터를 다루기 위해 많이 쓰였습니다. 예전에는 문장, 시계열 데이터, DNA 서열처럼 앞뒤 순서가 중요한 데이터에 자주 사용되었습니다. 다만 긴 거리의 관계를 잘 다루기 어렵다는 한계가 있어, 요즘은 Transformer가 많이 쓰입니다.

Transformer는 문장 안에서 멀리 떨어진 단어들 사이의 관계를 잘 포착하는 구조로 유명합니다. 핵심은 attention입니다. Attention은 “지금 판단할 때 어느 부분을 더 중요하게 볼 것인가”를 계산하는 방식입니다. 단백질 서열, DNA 서열, 논문 텍스트, 의료 기록처럼 긴 정보 안에서 중요한 관계를 찾는 데 유용합니다.

Diffusion model, 즉 확산 모델은 최근 이미지 생성에서 유명해진 모델입니다. 매우 거친 노이즈에서 출발해 점점 의미 있는 형태를 만들어내는 방식으로 생각하면 됩니다. 의생명 분야에서는 이미지 생성, 데이터 보강, 분자 설계 등과 연결될 수 있습니다.

주요 딥러닝 모델이 잘 보는 것

정리하면 다음과 같습니다.

모델	잘 맞는 데이터 감각	의생명정보학 예시
CNN	이미지의 지역적 무늬	병리 이미지, 현미경 이미지 분석
RNN	순서가 있는 데이터	시계열 생체신호, 과거의 서열 모델링
Transformer	긴 정보 안의 관계	유전체 서열, 단백질 서열, 의료 텍스트
Diffusion	점진적 생성	이미지 생성, 분자 구조 생성 가능성

이 표를 외울 필요는 없습니다. “모델 구조는 데이터의 모양과 관계가 있다”는 감각만 잡으면 됩니다.

9. 베이지안 사고는 “새 증거를 보면 믿음을 업데이트하는 방식”입니다

16장에는 베이지안 접근법도 나옵니다. 베이지안 정리는 수식으로 보면 어렵지만, 기본 철학은 아주 자연스럽습니다.

기존에 가지고 있던 생각을 새 증거를 보고 갱신하는 것입니다.

예를 들어 어떤 질병이 매우 드문 질병이라고 해보겠습니다. 어떤 검사에서 양성이 나왔습니다. 그러면 바로 “100% 병이 있다”고 말할 수 있을까요? 아닙니다. 검사 정확도도 봐야 하고, 그 질병이 원래 얼마나 흔한지도 봐야 합니다.

베이지안 사고에서는 기존 확률을 사전확률(prior)이라고 부릅니다. 새로 들어온 증거를 likelihood라고 생각할 수 있습니다. 증거를 본 뒤 갱신된 확률을 사후확률(posterior)이라고 합니다.

의학에서 이 사고는 매우 중요합니다. 같은 검사 결과라도 환자의 나이, 증상, 가족력, 유병률에 따라 의미가 달라질 수 있기 때문입니다. AI 모델에서도 불확실성을 다룰 때 베이지안적 사고가 도움이 됩니다.

초보자는 수식을 외우기보다 다음 문장을 기억하면 됩니다.

검사나 모델 결과는 그 자체로 끝이 아니라, 기존 정보와 함께 해석해야 합니다.

16장에 나오는 기본 수식 기호 읽는 법

베이지안 정리는 보통 다음처럼 씁니다.

P(H|E) = P(E|H) × P(H) / P(E)

처음에는 계산보다 기호의 뜻을 잡으면 됩니다.

기호	쉬운 뜻
`H`	확인하고 싶은 가설입니다. 예: 이 환자에게 질병이 있다.
`E`	새로 관찰한 증거입니다. 예: 검사 결과가 양성이다.
`P(H)`	증거를 보기 전 가설이 맞을 가능성, 즉 사전확률입니다.
`P(E\|H)`	가설이 맞을 때 이런 증거가 나올 가능성입니다.
`P(H\|E)`	증거를 본 뒤 가설이 맞을 가능성, 즉 사후확률입니다.

딥러닝 학습식도 비슷하게 “기호의 역할”만 알면 겁낼 필요가 없습니다.

θ ← θ - α∇L(θ)

θ는 모델 안의 조절 손잡이들입니다. L(θ)는 모델이 얼마나 틀렸는지 나타내는 손실 함수입니다. ∇L(θ)는 손실이 커지는 방향을 알려주는 기울기이고, α는 한 번에 얼마나 움직일지 정하는 학습률입니다. 이 식은 결국 “틀린 정도를 줄이는 방향으로 조절 손잡이를 조금씩 고친다”는 뜻입니다.

10. 단백질 구조 예측은 “글자 순서에서 입체 모양을 맞히는 문제”입니다

단백질은 아미노산이라는 작은 단위들이 이어진 사슬입니다. 이 사슬은 세포 안에서 접혀 특정한 3차원 모양을 만듭니다. 단백질의 기능은 이 모양과 깊게 관련되어 있습니다. 효소가 어떤 물질을 붙잡는 자리, 항체가 항원을 인식하는 자리, 약물이 결합하는 자리는 모두 단백질의 입체 구조와 관련됩니다.

문제는 단백질 구조를 실험으로 밝히는 일이 어렵고 오래 걸릴 수 있다는 점입니다. 그래서 “아미노산 서열만 보고 단백질이 어떻게 접힐지 예측할 수 있을까?”라는 문제는 오랫동안 생명과학의 큰 난제였습니다.

AI 기반 단백질 구조 예측은 이 문제에서 큰 전환점을 만들었습니다. AlphaFold 같은 모델은 아미노산 서열, 진화적으로 비슷한 단백질 정보, 구조적 제약을 활용해 단백질의 3차원 구조를 예측합니다.

단백질 구조 예측의 흐름

여기서 중요한 것은 구조 예측이 끝이 아니라 시작이라는 점입니다. 예측 구조는 단백질 기능 해석, 질병 변이의 영향 추정, 약물 결합 자리 탐색, 단백질 설계 등에 활용될 수 있습니다. 하지만 예측 결과도 언제나 검증이 필요합니다. 특히 단백질이 세포 안에서 다른 단백질과 결합하거나, 특정 조건에서 모양이 바뀌거나, 막 단백질처럼 복잡한 환경에 있을 때는 더 조심해야 합니다.

11. AI 에이전트는 “목표를 받고 도구를 골라 반복 실행하는 시스템”입니다

16장 후반부에서는 AI 에이전트가 나옵니다. 일반적인 AI 모델은 입력을 넣으면 출력을 냅니다. 예를 들어 이미지를 넣으면 분류 결과를 줍니다. 하지만 AI 에이전트는 조금 더 넓은 흐름을 가집니다.

AI 에이전트는 목표를 받고, 필요한 도구를 고르고, 실행하고, 결과를 확인하고, 다음 행동을 정하는 시스템입니다. 예를 들어 “이 유전자 목록이 어떤 질병 경로와 관련되는지 분석해줘”라는 목표를 받으면, 데이터베이스를 검색하고, 분석 코드를 실행하고, 결과를 요약하고, 부족한 부분을 다시 확인하는 식입니다.

AI 에이전트의 작동 순환

의생명정보학에서는 AI 에이전트가 연구 보조 역할을 할 수 있습니다. 논문 검색, 코드 작성, 데이터 전처리, 결과 시각화, 보고서 초안 작성 같은 작업을 도울 수 있습니다. 하지만 생명과학과 의학에서는 잘못된 분석이 실제 판단에 영향을 줄 수 있기 때문에, 사람이 결과를 검토하는 과정이 반드시 필요합니다.

AI 에이전트를 이해할 때 중요한 태도는 이렇습니다.

AI 에이전트는 연구자를 대체하는 만능 과학자가 아니라, 반복 작업과 탐색 작업을 빠르게 도와주는 도구입니다.

12. 16장을 읽기 전 꼭 잡아야 할 핵심 정리

16장의 AI 내용은 화려해 보이지만, 기본은 단순합니다.

AI는 데이터를 숫자로 받아 패턴을 학습합니다. 학습한 패턴으로 새로운 데이터를 예측합니다. 딥러닝은 복잡한 데이터를 다루는 데 강하지만, 왜 그런 결론을 냈는지 설명하기 어려울 수 있습니다. 의생명정보학에서는 데이터 품질, 검증, 편향, 재현성, 개인정보 보호가 매우 중요합니다.

핵심 개념	읽을 때 필요한 감각
머신러닝	데이터에서 판단 기준을 배우는 방법입니다.
딥러닝	여러 층의 신경망으로 복잡한 특징을 배우는 방법입니다.
손실 함수	모델이 얼마나 틀렸는지 나타내는 점수입니다.
과적합	문제집 답은 외웠지만 새 문제는 못 푸는 상태입니다.
잠재공간	복잡한 데이터를 짧게 요약한 내부 지도입니다.
AI 에이전트	목표를 받고 도구를 써서 반복적으로 작업하는 시스템입니다.

16장을 읽을 때는 “이 모델이 어떤 데이터를 입력으로 받고, 무엇을 예측하며, 어떻게 검증되는가?”를 계속 질문하면 훨씬 잘 따라갈 수 있습니다.