챕터 01 선수지식: 서론에 들어가기 전 알아야 할 것

25 분 소요

1. 1챕터는 무엇을 하려는 장인가요?

1챕터는 의생명정보학이 어떤 학문인지 큰 지도를 보여주는 장입니다. 여기서 중요한 것은 세부 계산이나 분석법을 당장 완벽히 이해하는 것이 아닙니다. 오히려 “이 학문이 왜 생겼는지”, “어떤 데이터를 다루는지”, “생명과학, 의학, 컴퓨터가 어떻게 만나는지”를 감 잡는 것이 중요합니다.

원문 1장에서는 의학, 생명과학, 정보학이 만나는 지점에서 의생명정보학이 등장한다고 설명합니다. 또한 세포, DNA, RNA, 단백질, 체학, 인간 지놈 프로젝트, 후성유전체학, 이미지 데이터, 단백질 구조 데이터, 의료정보 데이터 같은 개념이 한꺼번에 등장합니다. 배경이 없는 독자에게는 이 장이 “소개”라기보다 오히려 용어 폭격처럼 느껴질 수 있습니다.

따라서 1챕터에 들어가기 전에는 아래의 큰 그림을 먼저 잡아야 합니다.

의생명정보학의 위치

의생명정보학은 한마디로 말하면, 생명과 질병에서 나오는 데이터를 컴퓨터와 통계적 사고로 다루는 분야입니다. 병원, 실험실, 현미경, 유전체 분석 장비에서 나오는 정보를 모아 질병을 이해하고, 치료법을 찾고, 생명 현상을 설명하려는 학문입니다.

그림 1.0 의생명정보학은 생명과학, 의학, 정보학이 만나는 학문이다

2. 생명과학은 “살아 있는 것의 원리”를 이해하려는 학문입니다

생명과학이라는 말은 굉장히 넓습니다. 동물, 식물, 세균, 사람의 몸, 세포, 유전자, 단백질, 질병까지 모두 생명과학의 대상이 될 수 있습니다.

처음에는 생명과학을 너무 어렵게 생각하지 않으셔도 됩니다. 생명과학은 결국 이런 질문에서 출발합니다.

사람 몸은 무엇으로 이루어져 있을까요?
왜 어떤 사람은 병에 걸리고, 어떤 사람은 덜 걸릴까요?
부모와 자식은 왜 닮을까요?
세포는 어떻게 살아 움직일까요?
약은 몸속에서 어떻게 작동할까요?

옛날의 생명과학은 눈으로 보고 기록하는 방식에 가까웠습니다. 예를 들어 새, 곤충, 식물의 모양을 관찰하고 분류하는 일이 중요했습니다. 그런데 현미경이 등장하면서 사람은 눈에 보이지 않던 작은 세계를 보기 시작했습니다. 그 결과 세포라는 개념이 등장했고, 이후 DNA, RNA, 단백질 같은 분자 수준의 생명 현상도 연구할 수 있게 되었습니다.

즉, 생명과학의 시선은 대략 이렇게 깊어졌습니다.

생물 전체 → 기관 → 조직 → 세포 → 분자 → DNA/RNA/단백질 → 데이터

그림 1.1 생명과학의 관점은 생물 전체에서 분자와 데이터로 깊어진다

의생명정보학은 이 흐름의 가장 뒤쪽, 즉 생명 현상이 데이터로 바뀐 이후 그 데이터를 해석하는 단계와 깊이 관련됩니다.

3. 세포는 생명의 기본 단위입니다

세포는 생명체를 이루는 가장 기본적인 작은 단위입니다. 사람의 몸은 수많은 세포로 이루어져 있습니다. 피부세포, 근육세포, 신경세포, 혈액세포처럼 세포에도 여러 종류가 있습니다.

세포를 아주 작은 공장이라고 상상해보면 이해하기 쉽습니다.

세포막은 공장의 울타리입니다.
핵은 중요한 설계도가 보관된 사무실입니다.
DNA는 설계도입니다.
RNA는 설계도의 복사본 또는 작업 지시서입니다.
단백질은 실제로 일을 하는 기계나 작업자입니다.
미토콘드리아는 에너지를 만드는 발전소에 가깝습니다.

그림 1.2 세포는 DNA, RNA, 단백질이 작동하는 생명의 기본 단위이다

생명정보학에서 세포가 중요한 이유는, 많은 생명 데이터가 결국 세포에서 나오기 때문입니다. 유전체 데이터는 세포 속 DNA에서 나오고, 전사체 데이터는 세포에서 만들어지는 RNA에서 나오며, 단백체 데이터는 세포 안팎의 단백질에서 나옵니다.

그림 1.3 세포에서 유전체, 전사체, 단백체 데이터가 만들어진다

그러므로 1장을 읽기 전에는 “생명체는 세포로 이루어져 있고, 세포 안에는 DNA 같은 중요한 정보가 있다” 정도를 알고 있으면 충분합니다.

4. DNA, RNA, 단백질은 생명정보학의 핵심 3인방입니다

1챕터에서 가장 중요한 생물학 배경은 DNA, RNA, 단백질입니다. 이 셋은 이후 거의 모든 챕터에서 반복해서 등장합니다.

중심원리 단순 도식

DNA는 생명체의 설계도에 비유할 수 있습니다. 집을 짓기 전에 설계도가 필요하듯, 생명체도 어떤 단백질을 만들지, 세포가 어떻게 작동할지에 대한 기본 정보를 DNA에 담고 있습니다.

RNA는 DNA 정보를 실제로 사용하기 위해 임시로 복사한 문서에 가깝습니다. DNA 원본은 세포핵 안에 비교적 안전하게 보관하고, 필요한 부분만 RNA로 복사해서 사용한다고 생각하면 됩니다.

단백질은 실제로 몸속에서 일을 하는 분자입니다. 근육을 움직이고, 음식물을 분해하고, 세포 신호를 전달하고, 병원체와 싸우는 등 수많은 생명 활동에 단백질이 관여합니다.

이때 생물학에서 매우 중요한 흐름이 하나 있습니다.

DNA → RNA → 단백질

그림 1.4 DNA 정보는 RNA를 거쳐 단백질 기능으로 이어진다

이 흐름을 중심원리(Central Dogma)라고 부릅니다. 아주 쉽게 말하면, “설계도인 DNA의 정보가 RNA를 거쳐 단백질이라는 실제 기능물로 이어진다”는 뜻입니다.

여기서 중요한 점은 DNA 자체가 곧바로 몸의 모든 기능을 수행하는 것은 아니라는 점입니다. DNA는 정보의 저장소이고, 단백질은 그 정보를 바탕으로 만들어지는 실제 작업자에 가깝습니다. 그래서 어떤 유전자가 “켜졌다” 또는 “발현되었다”고 할 때는 보통 DNA에 적힌 정보가 RNA로 복사되고, 필요하면 단백질 생산으로 이어지는 과정을 말합니다.

5. 유전자와 유전체는 다릅니다

유전자와 유전체는 비슷해 보이지만 크기가 다릅니다.

유전자는 DNA 중에서 특정 기능과 관련된 정보 단위입니다. 예를 들어 어떤 단백질을 만드는 데 필요한 정보가 담긴 DNA 구간을 유전자라고 부를 수 있습니다.

반면 유전체는 한 생명체가 가진 DNA 정보 전체를 말합니다. 책에 비유하면 다음과 같습니다.

비유	생물학 개념	설명
글자	염기	A, T, G, C 같은 DNA의 기본 문자입니다.
문장	유전자	특정 기능과 관련된 정보 구간입니다.
책 한 권 또는 전집	유전체	한 생명체가 가진 DNA 전체입니다.

그림 1.5 유전자는 DNA의 기능 구간이고 유전체는 DNA 전체이다

1챕터에서는 유전체, 전사체, 단백체 같은 말이 등장합니다. 여기서 중요한 감각은 “-체”가 어떤 대상의 전체 집합을 뜻한다는 것입니다. 유전체는 유전 정보 전체, 전사체는 RNA 전체, 단백체는 단백질 전체를 보는 관점입니다.

6. “-체”와 “-체학”은 전체를 보는 방식입니다

생명정보학에서 자주 나오는 말 중 하나가 유전체학, 전사체학, 단백체학, 대사체학입니다. 처음 보면 굉장히 어렵지만 구조는 단순합니다.

오믹스 사다리

“-체”는 어떤 대상 전체를 뜻합니다. “-체학”은 그 전체를 측정하고 분석하는 학문입니다.

예를 들어 유전체학은 유전자 하나만 보는 것이 아니라, 유전체 전체를 분석합니다. 전사체학은 RNA 한두 개만 보는 것이 아니라, 특정 세포나 조직에서 만들어진 RNA 전체를 봅니다. 단백체학은 단백질 전체를 보려는 분야입니다.

왜 전체를 보려고 할까요? 생명 현상은 보통 단일 원인 하나로만 설명되지 않기 때문입니다. 키, 질병, 약물 반응, 암 발생 같은 현상은 여러 유전자, 여러 단백질, 여러 환경 요인이 함께 작용해서 나타납니다. 그래서 현대 생명정보학은 “하나만 자세히 보기”보다 “전체 패턴을 보고 관계를 찾기”를 중요하게 여깁니다.

그림 1.6 오믹스는 생명 현상을 한 요소가 아니라 전체 패턴으로 본다

7. 데이터란 관찰한 것을 기록한 것입니다

의생명정보학을 이해하려면 데이터라는 말을 편하게 받아들여야 합니다. 데이터는 꼭 거창한 숫자 파일만 뜻하지 않습니다. 관찰한 것을 기록하면 그것이 데이터가 될 수 있습니다.

예를 들어 다음은 모두 데이터입니다.

환자의 키, 몸무게, 혈압
혈액검사 수치
DNA 염기서열
현미경 사진
CT, MRI 영상
의사의 진료 기록
질병 진단 코드
약을 먹은 뒤 증상이 좋아졌는지에 대한 기록

데이터는 크게 정량적 데이터와 비정량적 데이터로 나눌 수 있습니다. 정량적 데이터는 숫자로 표현되는 데이터입니다. 예를 들어 키 175cm, 혈압 120/80, 유전자 발현량 50 같은 값입니다. 비정량적 데이터는 글, 이미지, 소리처럼 숫자로 바로 보기 어려운 데이터입니다. 물론 컴퓨터는 이미지나 글도 결국 숫자로 바꾸어 처리합니다.

의생명정보학에서는 이런 다양한 데이터를 컴퓨터로 저장하고, 검색하고, 정리하고, 분석합니다. 여기서 정보학이 필요해집니다.

8. 정보학은 데이터를 다루는 방법입니다

정보학은 데이터를 잘 다루기 위한 분야입니다. 여기에는 데이터 저장, 검색, 처리, 분석, 시각화가 포함됩니다.

아주 쉬운 예를 들어보겠습니다. 학교에 학생 1,000명의 건강검진 기록이 있다고 해보겠습니다. 종이에만 적혀 있으면 원하는 정보를 찾기 어렵습니다. 하지만 컴퓨터 데이터베이스에 저장되어 있다면 다음과 같은 질문을 할 수 있습니다.

혈압이 높은 학생은 몇 명인가요?
체중과 혈당은 관련이 있나요?
특정 질병을 가진 학생들에게 공통적인 특징이 있나요?
작년과 올해의 건강 상태는 어떻게 달라졌나요?

의생명정보학에서는 이와 비슷한 일을 훨씬 큰 규모로 합니다. 사람 한 명의 유전체에는 엄청나게 많은 정보가 있고, 병원에는 수많은 환자 기록과 의료영상이 쌓입니다. 이 데이터를 사람이 눈으로 하나하나 읽는 것은 불가능합니다. 그래서 컴퓨터와 알고리즘이 필요합니다.

9. 의학 데이터는 병원에서 나오는 데이터입니다

1챕터에는 전자의무기록, ICD, DICOM 같은 의료정보학 용어가 등장합니다. 이 용어들은 병원 데이터의 대표적인 예입니다.

전자의무기록(EMR)은 환자의 진료 정보를 컴퓨터에 저장한 것입니다. 진단, 처방, 검사 결과, 수술 기록, 생활습관, 과거 병력 등이 포함될 수 있습니다.

ICD는 질병에 붙이는 국제 표준 코드 체계입니다. 사람마다 병명을 다르게 쓰면 데이터 분석이 어려워집니다. 예를 들어 어떤 사람은 “감기”, 어떤 사람은 “상기도 감염”, 어떤 사람은 “급성 비인두염”이라고 기록할 수 있습니다. 이런 표현을 표준 코드로 정리하면 컴퓨터가 더 쉽게 처리할 수 있습니다.

DICOM은 CT, MRI, X-ray 같은 의료영상을 저장하고 주고받기 위한 표준 형식입니다. 단순한 이미지 파일이 아니라, 환자 정보, 촬영 조건, 영상 정보 등이 함께 들어갈 수 있습니다.

1챕터에서는 이 용어들을 깊게 분석하지는 않습니다. 일단은 “병원 데이터도 표준화해서 컴퓨터가 다룰 수 있게 만든다” 정도로 이해하면 충분합니다.

10. 현미경과 의료영상은 이미지를 데이터로 바꾸는 도구입니다

생명과학과 의학에서는 이미지를 많이 다룹니다. 현미경 사진, 조직 사진, 형광 이미지, X-ray, CT, MRI 등이 모두 이미지 데이터입니다.

밝은 시야 현미경은 빛을 통과시켜 세포나 조직을 보는 기본적인 방식입니다. 위상차 현미경은 투명한 세포를 더 잘 보이게 해줍니다. 형광 현미경은 특정 물질에 형광 표지를 붙여 원하는 구조나 단백질을 빛나게 볼 수 있게 합니다.

컴퓨터 입장에서 이미지는 픽셀의 모음입니다. 픽셀은 화면을 이루는 작은 점입니다. 각 픽셀에는 밝기나 색상 정보가 들어 있습니다. 그래서 이미지는 결국 숫자의 큰 표처럼 다룰 수 있습니다.

딥러닝 기반 의료영상 분석도 여기서 출발합니다. 컴퓨터가 많은 이미지와 정답을 학습하면, 새로운 이미지에서 암세포가 의심되는 부위나 특정 조직 구조를 찾도록 만들 수 있습니다.

11. 단백질 구조는 “분자의 모양”을 보는 것입니다

단백질은 단순한 줄글이 아니라 3차원 모양을 가진 분자입니다. 단백질의 기능은 모양과 밀접하게 관련됩니다. 열쇠와 자물쇠를 떠올리면 쉽습니다. 약물이 특정 단백질에 달라붙으려면, 단백질의 모양과 약물의 모양이 어느 정도 맞아야 합니다.

그래서 단백질 구조를 아는 것은 약물 개발에 중요합니다. X선 결정학, 극저온 전자현미경, 단백질 접힘 예측 같은 방법은 단백질의 3차원 구조를 알아내려는 기술입니다.

1챕터에서는 이 기술들을 자세히 배울 필요는 없습니다. 일단 “단백질은 모양이 중요하고, 그 모양을 알면 기능과 약물 작용을 이해하는 데 도움이 된다”고 받아들이면 됩니다.

12. 통계는 데이터 속 패턴을 조심스럽게 읽는 방법입니다

의생명정보학에서 통계는 필수입니다. 하지만 1챕터를 읽기 전에 복잡한 수식을 알 필요는 없습니다. 대신 통계적 사고의 기본 감각만 있으면 됩니다.

통계는 “데이터를 보고 성급하게 결론 내리지 않기 위한 도구”입니다. 예를 들어 어떤 약을 먹은 사람 10명 중 7명이 좋아졌다고 해서, 그 약이 반드시 효과가 있다고 말할 수 있을까요? 자연 회복일 수도 있고, 우연일 수도 있고, 환자들이 원래 가벼운 증상이었을 수도 있습니다.

그래서 통계는 다음과 같은 질문을 던집니다.

이 차이는 정말 의미 있는 차이일까요?
우연히 이렇게 보였을 가능성은 어느 정도일까요?
표본 수가 충분할까요?
두 집단을 공정하게 비교했을까요?

이 감각은 후반부의 GWAS, 임상시험, 데이터 분석, 인공지능 챕터에서 더 중요해집니다.

본편 진입 전 보강: 후성유전학, 프로모터, CpG island를 스위치로 이해하기

1챕터 본편에서는 후성유전체학과 DNA 메틸화가 등장합니다. 여기서 중요한 점은 DNA 글자 자체가 바뀌지 않아도 유전자가 읽히는 정도는 달라질 수 있다는 것입니다.

예를 들어 같은 요리책을 가지고 있어도, 어떤 페이지에는 “오늘은 이 요리 금지”라는 포스트잇이 붙어 있을 수 있습니다. 요리책 내용은 그대로지만, 실제로 그 요리를 만들지는 않게 됩니다. 후성유전학적 조절도 이와 비슷합니다. DNA 서열이라는 책 내용은 그대로인데, 세포가 어떤 유전자를 읽을지 말지를 조절하는 표식이 붙을 수 있습니다.

후성유전학과 CpG island 메틸화 스위치

특히 프로모터는 유전자를 읽기 시작하는 시작 버튼에 가깝습니다. RNA 중합효소가 프로모터 근처에 붙어야 유전자가 RNA로 전사될 수 있습니다. CpG island는 C와 G가 많이 모여 있는 DNA 구간으로, 많은 유전자의 프로모터 주변에서 발견됩니다.

메틸화(methylation)는 DNA에 붙는 작은 화학 표식입니다. CpG island에 메틸화가 많이 붙으면, 많은 경우 그 근처 유전자는 덜 읽히거나 꺼지는 방향으로 갈 수 있습니다. 그래서 본편에서 말하는 암 관련 예시는 다음처럼 이해하면 됩니다.

상황	쉬운 비유	암과의 연결
종양 억제 유전자 프로모터 CpG island 과메틸화	브레이크 설명서의 시작 버튼에 “읽지 마시오” 표시가 붙음	브레이크 역할 유전자가 덜 작동해 암 위험이 커질 수 있습니다.
암유전자 조절 영역 저메틸화	원래 조용해야 할 가속페달 설명서가 더 쉽게 읽힘	성장 신호가 과해져 암 위험이 커질 수 있습니다.

여기서 “과메틸화도 암 위험을 높이고, 저메틸화도 암 위험을 높인다”는 말이 모순처럼 보일 수 있습니다. 하지만 핵심은 어떤 유전자가 영향을 받느냐입니다. 브레이크 유전자가 꺼지는 것은 위험하고, 가속페달 유전자가 켜지는 것도 위험합니다. 방향은 다르지만 둘 다 세포 조절을 망가뜨릴 수 있습니다.

인간 지놈 프로젝트와 시퀀싱 비용 감소도 같은 맥락에서 중요합니다. 예전에는 사람 DNA 전체를 읽는 일이 너무 비싸고 느렸습니다. 그런데 시퀀싱 비용이 크게 낮아지면서, 많은 사람의 유전체·후성유전체·전사체 데이터를 모아 질병과 연결해서 분석할 수 있게 되었습니다. 의생명정보학이 폭발적으로 성장한 이유가 여기에 있습니다.

13. 1챕터 진입 전 핵심 정리

선수지식	아주 쉬운 설명	1챕터에서 필요한 이유
세포	생명체를 이루는 기본 단위입니다.	DNA, RNA, 단백질이 세포 안에서 작동하기 때문입니다.
DNA	생명의 설계도 역할을 하는 정보 분자입니다.	유전체학과 생명정보학의 핵심 데이터입니다.
RNA	DNA 정보를 사용하는 과정에서 만들어지는 복사본에 가깝습니다.	전사체학을 이해하는 출발점입니다.
단백질	몸속에서 실제 기능을 수행하는 분자입니다.	단백체학, 단백질 구조, 신약 개발의 기초입니다.
중심원리	DNA → RNA → 단백질로 정보가 흐른다는 기본 틀입니다.	여러 체학 분야의 차이를 이해하게 해줍니다.
데이터	관찰하거나 측정한 것을 기록한 것입니다.	생명정보학은 생명 데이터를 분석하는 분야입니다.
정보학	데이터를 저장, 검색, 처리, 분석하는 방법입니다.	의생명정보학의 컴퓨터 쪽 기반입니다.
통계적 사고	데이터 속 차이가 의미 있는지 판단하는 사고법입니다.	임상시험, 역학, 유전체 분석의 기초입니다.
후성유전학	DNA 글자는 그대로여도 읽히는 정도가 달라질 수 있다는 관점입니다.	메틸화, CpG island, 암 관련 발현 조절을 이해하게 해줍니다.
CpG island 메틸화	유전자 시작 버튼 근처에 붙는 읽기 조절 표식처럼 이해할 수 있습니다.	종양 억제 유전자 과메틸화와 암유전자 저메틸화 설명에 필요합니다.