본문 바로가기
AI와 화학물질

노벨화학상 받은 AI? 잘 사용하지 않는 이유...

by Good.PhD 2024. 11. 23.

노벨화학상을 받은 알파폴드 (AlphaFold). 관련 분야에 있다보니 질문을 가끔 받는다. 근데 사실 잘 모른다. 나는 알파폴드를 사용할 일이 거의 없기 때문이다. 그렇지만 알파폴드가 왜 중요한 연구인지는 이해하고 있다. 모델 세부 내용을 잘 모르고 있을 뿐. 알파폴드는 단백질의 구조를 예측해준다. 단백질 서열을 입력하면 3차원 구조를 만들어준다. 단백질은 아미노산 (amino acid)로 구성되어 있다. 이 아미노산의 순서를 단백질 서열이라고 한다. 아미노산에 대한 것은 위키피디아를 보면 설명이 잘 되어 있으니 아래 링크를 보시면 된다.

https://ko.wikipedia.org/wiki/%EC%95%84%EB%AF%B8%EB%85%B8%EC%82%B0

 

아미노산 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 계통명을 정의하는 데 필요한 "중성" 형태의 일반적인 L-아미노산의 구조. 이 형태가 수용액이나 고체 상태에서 실제로 검출가능한 양으로 존재한다는 의미는

ko.wikipedia.org

 

우리 세포에서는 단백질을 계속 만들어낸다. 소화효소도 단백질이다. 매끼니때마 우리 배속에서 만들어진다. 호르몬도 단백질. 우리 몸의 많은 기능이 단백질에 의해서 유지된다. 단백질을 어떻게 만들어낼까? 단백질 정보는 DNA 안에 들어있다. DNA의 정보를 해석해낸 결과물이 단백질이다. 세포안의 핵에 DNA가 들어있다. DNA가 손상되면 큰일이다. 생명을 유지하는데 핵심적인 정보들이 들어있기 때문이다. 그래서 DNA는 핵 속에 잘 보관되어 있다. 다만 DNA 정보를 사용할 때는 필요한 부분을 복사해서 사용한다. 마치 도서관에서 필요한 자료의 일부분만 복사해서 사용하는 것과 유사하다. DNA 정보는 mRNA (messenger RNA)로 복사한다. 그래서 핵 내부에서 DNA를 꺼내지 않고도 mRNA를 통해 필요한 정보만 복사해서 사용할 수 있다. mRNA는 세포핵 밖에서 리보솜(ribosome)을 만난다. 리보솜은 mRNA의 정보를 해석해서 단백질 정보로 바꿔주는 역할을 한다. mRNA 속에 단백질 서열 정보가 들어있기 때문이다. 그래서 DNA에 담겨있는 정보가 mRNA를 거쳐서 단백질로 변환된다. 이 과정은 모든 세포에서 일어난다. 모든 생명현상의 핵심이라고 해서 센트럴 도그마 (Central Dogma)라고 불린다.

https://ko.wikipedia.org/wiki/%EC%84%BC%ED%8A%B8%EB%9F%B4_%EB%8F%84%EA%B7%B8%EB%A7%88

 

센트럴 도그마 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 분자생물학의 중심원리. 유전 정보가 전달되는 과정을 설명하고 있다. 실선은 일반적 전이과정, 점선은 특수한 전이과정을 나타낸다. 분자생물학의 중심원리(

ko.wikipedia.org

 

이 핵심 원칙에 의해 DNA 정보만 모두 파악했다면 단백질 서열도 알 수 있다. 그리고 단백질 서열은 인간 유전체 프로젝트 (게놈프로젝트, Genome project)를 통해 모두 확인을 했다. 2000년대 초반에 프로젝트가 끝났으니 DNA 정보는 이미 밝혀져 있는 상황. 그러면 단백질 정보는 이미 다 파악이 된 셈이다. 그런데 왜 알파폴드가 그렇게 중요한걸까?

https://ko.wikipedia.org/wiki/%EC%9D%B8%EA%B0%84_%EC%9C%A0%EC%A0%84%EC%B2%B4_%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8

 

인간 유전체 프로젝트 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 인간 유전체 프로젝트(Human Genome Project, HGP)는 2003년까지 인간 게놈에 있는 약 32억개의 뉴클레오타이드 염기쌍의 서열을 밝히는 것을 목적으로 한 프로젝트이다

ko.wikipedia.org

 

 

단백질 서열 정보만으로 3차원 구조를 찾을 수가 없었기 때문이다. 구성 성분은 다 아는데 왜 3차원 구조를 몰랐을까? 여기서 중요한 단어는 '3차원' 그리고 알파폴드의 '폴드'다. 폴드(fold)는 접힌다는 이야기다. 종이접기할 때 '접기'와 같은 뜻이다. 단백질 서열은 다양한 모양으로 접히면서 3차원 공간상에서 특정한 구조를 갖게 된다. 세포 내에서 리보솜을 통해 mRNA를 단백질 정보로 번역한다. 그리고 세포 내에서 단백질을 접어주는 과정이 있다. 여기서 어떻게 구조를 접었는지에 따라서 3차원 구조가 결정되게 된다. 그리고 3차원 구조에 의해서 단백질의 기능이 결정된다. 그래서 서열 정보만 파악해서는 3차원 구조를 알 수 없었고, 그래서 단백질의 기능을 이해하는데 어려움이 있었다. 그런데 알파폴드의 개발을 통해 서열 정보만으로 3차원 구조를 예측해볼 수 있게 된 것이다.

 

https://ko.wikipedia.org/wiki/%EB%8B%A8%EB%B0%B1%EC%A7%88%EC%9D%98_%EA%B5%AC%EC%A1%B0

 

단백질의 구조 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 단백질의 구조(영어: protein structure)는 아미노산 사슬에 있는 원자와 분자의 3차원 배열이다. 단백질은 아미노산의 염기서열에서 형성된 생체고분자(폴리펩타이

ko.wikipedia.org

단백질의 구조를 공부할 때 꼭 배우는 내용이 있다. 스프링처럼 똘똘 말려있는 구조. 알파 헬릭스 (alpha helix)라고 불리는 구조인데 특정 아미노산끼리 서로 잡아당기면서 말려있는 형태를 갖는다. 넓은 평면 형태를 갖는 구조. 베타 시트 (beta sheet)라고 불리는데, 아미노산 서열이 차곡 차곡 접혀서 쌓여있는 형태다. 이러한 특정 구조의 조합으로 다양한 조합의 구조가 나오게 된다. 이러한 구조들을 살펴보면 서열순서와 상관없이 서로 가깝게 위치한 아미노산들이 있다. 서열 상으로는 멀리멀리 떨어져있지만, 단백질이 접히는 과정을 통해 3차원 공간상에서는 바로 옆에 위치해 있는 것이다. 그래서 서열을 찾아냈더라도 3차원 구조를 찾기 위해서는 별도의 시험이 필요했다. 단백질 중에는 이런 실험 수행이 불가능한 경우도 있다. 어떤 단백질은 세포 막에 결합되어 있다. 실험을 위해서 세포 막에서 단백질을 분리해내는 순간 단백질의 구조가 망가져 버렸다. 그러니 실험으로도 3차원 구조를 찾아낼 수가 없다.

 

단백질의 3차원 구조를 이해하는 것이 왜 중요할까? 신약을 찾아내는데 중요한 역할을 한다. 실험 중심의 신약 개발 과정 내에 다양한 계산 기법을 적용해서 신약 개발에 소요되는 시간과 비용을 줄여주는 기술을 컴퓨터를 이용한 신약개발 (computer-aided drug design, CADD)라고 불렀다. 최근에는 CADD에서 사용되는 기술의 많은 부분에 AI가 접목되면서 인공지능 신약개발 (AI drug design)이라는 용어가 많이 사용된다. 여기서 단백질 구조 정보가 밝혀져 있는지 없는지에 따라 사용할 수 있는 무기가 다르다. 단백질 구조가 없을 때는 QSAR로 접근을 했다. 단백질 구조가 있다면 물질이 어디에 결합해서 단백질의 기능을 조절하는지 좀 더 자세하게 연구를 해볼 수 있다. 신약 개발을 할 때 질병의 원인이 되는 단백질을 먼저 찾아낸다. 그리고 그 단백질의 기능을 조절하기 위한 화학물질을 찾아내는데, 알파폴드가 다양한 단백질의 구조를 정확하게 찾아냄으로써 신약 개발에서 후보물질을 찾는데 큰 기여를 한 것이다.

 

개인적으로 알파폴드를 잘 사용하지 않게 되는 이유는 QSAR 위주의 연구를 하기 때문이다. 주로 동물시험 데이터를 사용하고 있다. 특정 단백질에 기가막히게 잘 결합하는 화학물질도 동물에서 실험하는 경우 효과가 없는 경우가 있다. 약이 흡수되는 과정 때문이다. 그래서 세포 실험에서 좋은 효과가 나오더라도 동물 시험으로 검증을 한번 하게 된다. 세포 시험에서 효과가 좋다고 해서 동물 시험에서도 효과가 좋지 않을 수 있기 때문이다. 동물 시험에서 독성을 확인하는 경우에는 특정 단백질과의 결합으로 독성을 설명이 어려운 경우도 많다. 그러다 보니 단백질 구조 보다는 동물이나 사람에게서 확인되는 증상을 예측하는 모델을 개발하고 있다. 그래서 알파폴드 도움이 굳이 필요없는 일을 하고 있다. 알파폴드 등장 이후에 단백질 구조를 설계하는 연구들도 많이 하고 있다. 의약품 중에서도 단백질 의약품들이 있다. 백신이 대표적인 예시다. 이러한 단백질 의약품의 독성을 예측한다면 아마도 알파폴드를 써야될지도 모르겠다. 하지만 아직은 단백질 의약품 데이터가 별로 없어서 잘 안 건드리게 된다. 그래도 궁금해서 몇번 접속만 해봤다. 사용방법 자체는 단순하니 한번 사용해보는 것도 재미있을 것 같다.

 

이 웹페이지가 알파폴드를 사용해볼 수 있는 웹사이트이다. 

https://deepmind.google/technologies/alphafold/alphafold-server/

 

AlphaFold Server

AlphaFold Server is an easy-to-use tool that predicts how proteins interact with other molecules throughout cells. It’s entirely free for non-commercial research – so anyone can generate...

deepmind.google

 

그런데 구조 생성하는 작업이 만만치 않은 계산양이 요구되다 보니 딥마인드에서 구조를 다 생성해서 데이터베이스 형태로 배포해뒀다. 그래서 데이터베이스에서 한번 찾아보고, 원하는 단백질이 없다면 구조를 생성해보면 된다. 

https://alphafold.ebi.ac.uk/

 

AlphaFold Protein Structure Database

 

alphafold.com

 

알파폴드3가 가장 최신 버전인데, 사용할 수 있는 코드도 공개가 되었다. 서버가 있다면 세팅해서 사용해보는 것도 가능.

https://github.com/google-deepmind/alphafold3

 

GitHub - google-deepmind/alphafold3: AlphaFold 3 inference pipeline.

AlphaFold 3 inference pipeline. Contribute to google-deepmind/alphafold3 development by creating an account on GitHub.

github.com

 

모델 구성은 코드와 아래 논문에서 좀 더 찾아보고 공부를 해봐야겠다.

https://www.nature.com/articles/s41586-024-07487-w

 

딥마인드에서 알파폴드 관련 비디오도 재생목록으로 만들어뒀다. 아직 안 봤는데, 영상 길이는 다들 짧다. 다음에 시간내서 한번 보고 정리해보는 것도 재미있을듯.

https://youtube.com/playlist?list=PLqYmG7hTraZAhkAh72kzzLC4r2O4VoVgz&si=gRqlFgpPsJjA6-gX

 

The story of AlphaFold

Discover the story of AlphaFold, the system that solved a 50-year-old grand challenge in biology.

www.youtube.com