본문 바로가기
AI와 화학물질

인공지능은 어떻게 화학물질을 분석할 수 있을까?

by Good.PhD 2024. 11. 11.

화학물질. 안전할까? 인공지능은 어떻게 화학물질을 분석할까? 화학물질의 특성을 알아내기 위해 개발된 인공지능 모델들이 여러가지 있다. 뭘 입력해야 할까? 바로 구조식이다. 분자 구조식을 그려넣으면 그 물질의 독성을 찾아준다. 분자 구조식? 일반 사용자들에게 구조를 입력해야 한다는 것이 큰 허들로 작용한다. 아마도 대부분은 고등학교 때 배운 이후로 한동안 잊어버리고 살았을테니... 

 

화학물질의 구조에 따라 물질의 특성이 크게 바뀐다. 독성도 마찬가지로 크게 변할 수 있다. 그렇기 때문에 인공지능은 구조의 변화에 따른 독성의 변화를 예측하게 된다. 분자 구조식을 어떻게 그릴 수 있을까? 보통은 그리면 된다. 그림판에 그리는 게 아니라,, 분자 구조식 입력을 위해 개발된 소프트웨어가 있다. 그 프로그램에 구조식을 그리면, 인공지능이 인식할 수 있는 형태로 변환을 해준다.

 

웹에서 사용할 수 있는 프로그램들이 있다. 아래는 PubChem이라는 데이터베이스이다. 이 데이터베이스에 접속하면 구조를 그릴 수 있는 기능이 보인다.

PubChem 첫 화면

 

Draw Structure (구조 그리기) 버튼을 누르면 아래와 같은 창이 나온다. 여기서 구조식을 그려볼 수 있다. 오른쪽에 하얀 캔버스 위에 원하는 구조들을 그리면 된다. 왼쪽에 있는 다양한 버튼을 클릭해서 구조를 그리면 된다. 아래 화면에서는 길 다란 작대기 하나가 선택되어 있다. 이 상태로 그리면 길 다란 선을 그리게 된다.

구조식을 그리는 툴

 

육각링을 선택하면 길다란 줄기에 육각링을 추가하게 된다. 연습삼아 그냥 아무 구조나 그려봤다. 이렇게 구조식을 그린 후에 밑에 search for this structure (이 구조로 검색하기) 버튼을 누르면 데이터베이스 내에서 해당 구조를 찾아준다.

예시 구조식

 

이 그림에서 상단에 SMILES라고 되어 있는 버튼이 있는데, 이 괴상한 글자들이 구조식이다. 사람은 눈에 보이는 그림이 더 편하지만 인공지능은 저렇게 생긴 정보를 이용해서 구조식을 분석한다. 또 다른 표현 방식으로는 MDL Molfile 이라는 것이 있는데 구조식을 파일로 저장하는 방법이다.

 

아래는 ProTox-3.0 이라는 프로그램이다. 여기서도 구조식을 입력하면 다양한 독성값을 예측해준다.

https://tox.charite.de/protox3/

 

ProTox-3.0 - Prediction of TOXicity of chemicals

 

tox.charite.de

 

ProTox-3.0

 

이 홈페이지는 접속하면 기본적으로 예시 구조가 입력되어 있다. 이 구조에 대해서 다양한 독성 (hepatotoxicity: 간독성, neurotoxicity: 신경독성, nephrotoxicity: 신장독성, respiratory toxicity: 호흡 독성, cardiotoxicity: 심장독성 등)을 알려준다. 이 프로그램은 단순히 검색을 해오는 것이 아니다. 새로운 구조식에 대해서도 독성 값을 계산해주는 프로그램이다. 계산하는 방식은 나중에 좀 더 자세히 다뤄볼 예정이다.

 

분자 구조식은 보통 아래와 같이 표현이 된다. 술을 예로 들어보자. 술에 있는 에탄올 때문에 취하게 된다. 그래서 술이라는 제품의 주요한 효과는 에탄올이라는 주요성분 덕에 나타나는 것이다. 에탄올은 오른쪽 위 그림처럼 C(탄소) 2개와 O(산소)그리고 6개의 H(수소)로 이루어져 있다. 탄소는 주변에 총 4개와 결합을 이룬다. 그래서 첫번째 탄소는 수소 3개와 탄소 한개와 결합한다. 두번째 탄소는 수소 2개와, 산소, 그리고 다른 탄소와 연결되어 있다. 마지막으로 산소는 주변에 총 2개와 결합을 할 수 있다. 그래서 수소 한개와 탄소 한개와 결합을 하게 된다. 그런데 구조식을 그릴 때 보통 수소를 일일히 표기하지는 않는다. 왜냐하면 탄소의 특성 덕분에 쉽게 수소가 몇개 있는지 추측할 수 있기 때문이다. 그래서 탄소 주변에 어떤 것들이 붙어있는지만 표현한다. 그래서 오른쪽 아랫부분과 같이 단순화 해서 표현한다. 보통 탄소와 수소가 구조식의 대부분을 이루기 때문에 검은색 선으로 탄소간의 연결을 표현한다. 검은색 선이 꺾이는 지점이 다른 탄소가 위치한 지점이다. 탄소간의 연결을 위주로 구조식을 그려도 전혀 문제가 없다. 수소를 일일히 입력해주지 않아도 되니 그리는데 드는 시간도 줄일 수 있다.

에탄올 구조식

 

타이레놀의 주요 성분이 아세트아미노펜이다. 아래와 같은 구조식을 갖고 있다. 오른쪽은 수소를 일일히 표현해놓은 표기 방식이고, 왼쪽이 탄소의 연결을 위주로 표현한 것이다. 둘은 동일한 구조이다. 실무에서는 편이성의 이유로 왼쪽과 같은 표현 방식을 선호한다. 그래서 구조식을 그리는 프로그램들도 왼쪽과 같은 형식으로 구조식을 보여주는 것이다.

타이레놀 성분 분자구조식