모델의 세부내용. QMRF 문서를 보고 있다. 무슨 말인지 모르겠다면 '간 독성 AI 모델을 해부해봤습니 (데이터)' 편을 참고하시길... OECD QSAR validation guideline에서 2번째 원칙은 모델의 알고리즘을 정확하게 설명하는 것이다. 모델이 어떻게 개발되었는지 그리고 어떤 방식으로 작동하는지를 서술하는 부분이다.
아래 내용을 보면 어떤 모델인지 먼저 설명하고 있다. 이 모델은 3가지 답안만 제시할 수 있다: hepatotoxic (간 독성 있음) / non-hepatotoxic (간 독성 없음) / no prediction (알 수 없음)
어떤 구조가 입력되도 3가지로 답변이 제공된다. 모델은 decision tree (의사결정나무). structural alerts (구조 경고)에 기반해서 분류를 하는 모델이다. 구조 경고란? 화학물질에 있는 구조적 패턴을 의미한다. 사용자가 구조를 입력한 경우. 간 독성이 있는 물질들에서 자주 발견되는 구조 패턴이 있다면 간 독성이 있다고 분류한다. 간 독성이 없는 물질들에서 자주 발견되는 패턴이 확인되면 간 독성이 없다고 판단하겠다는 의미다. 패턴이 발견되지 않으면? 알수 없다고 알려준다.
그러면 하나의 물질에서 여러개의 패턴이 확인된다면?? 간 독성이 있는 패턴이 더 많으면 간 독성 있음. 간독성이 없는 패턴이 더 많으면 간 독성이 없음. 이렇게 분류된다.
구조 패턴은 도대체 어떤 정보일까? QMRF 문서를 이어서 읽어보면 자세한 내용이 나온다. 이 모델에서는 총 간 독성 패턴11개와 간 독성이 없는 패턴 2개를 이용해서 분류를 한다.13개의 패턴 중에 매칭되는 경우가 없다면 '잘 모르겠다'는 예측 값이 나온다. 이러한 패턴을 기반으로 나누는 모델들을 rule-based 모델이라고 한다. 전문가 시스템 (expert system)이라고 부르기도 한다. 전문가들이 보통 이러한 패턴을 정의해두기 때문이다. 그래서 이 정보를 이용해서 물질의 독성 여부를 분리할 수 있는 시스템을 개발하는 것이다.
그래서 VEGA에 있는 간 독성 모델은 13개의 패턴을 기준으로 최종 결과값을 정하게 된다. 13개의 패턴에 없는 물질은? 알 수 없으니 다른 방법으로 확인하라는 의미다. 예전에 예측했던 안식향산에 대한 예측 결과를 다시 한번 살펴보자. 예측 결과는 '알 수 없음 (Model prediction is Unknown)' 이다. 13개 패턴 중에 안식향산 구조와 일치하는 것이 하나도 없었다는 의미다. 대신 모델은 독성이 없다고 판단했다. 데이터 안에 안식향산 데이터가 이미 있었기 때문이다.
여기서 근본적인 질문 한가지. 이거 AI 모델 맞나요..? 이렇게 단순하게 작동하는데? 간 독성 예측하는 AI라더니..?
인공지능에 대한 정의가 생각보다 광범위하다. 위키피디아에 설명된 내용에 따르면 인간의 지능을 모방한 기능을 갖춘 컴퓨터 시스템이라고 했다. 굉장히 광범위하다. 전문가 시스템은 인간의 지능을 모방한 것인가? 그렇다. 전문가들도 물질을 보고 독성 여부를 판단할 때 화학 구조를 보고 특정 패턴이 있는지를 분석해서 예측을 내놓는다. 전문가 시스템은 이러한 전문가들의 접근 방법을 그대로 컴퓨터 시스템으로 구현한것이다. 그래서 인공지능의 범주에 속한다.
요즘 인공지능 하면 바로 챗GPT를 떠올린다. 이 정도는 챗GPT도 알려줄 수 있지 않을까? 챗GPT에서 o1-preview 모델을 이용해서 안식향산의 간 독성에 대해 질문해봤다. 꽤 정확한 정보가 나왔다. 안식향산에 대해서 잘 설명할 수 있는 이유는 아무래도 정보가 많기 때문이다. 정보가 별로 없는 새로운 물질이라면? 물질의 구조를 해석하는 능력이 중요하다. (코파일럿으로도 테스트 해봤는데, 결과가 영 아니다... 프롬프트에서 간독성이 있다고 하면, 왜 간독성이 있는지를 설명한다. 반대로 프롬프트를 뒤집어서 간독성이 없다고 하면, 왜 간독성이 없는지를 설명한다...)
o1-preview의 구조 분석 능력은 어떨까? 모델에서 structural alert 패턴 중 하나에 대해서 질문을 해봤다.
2번패턴이다. 참고로 NS(=O)(=O)c1ccccc1 패턴은 다음과 같이 생겼다.
이 구조 패턴에 대해서 분석을 요청해봤다.
질문: NS(=O)(=O) c1ccccc1 이 smiles 코드의 2D 구조 알려줘
구조 정보는 대체로 정확하게 설명을 했다. 그런데 정작 구조를 잘못 그렸다. 벤젠 고리는 S (황) 원자에 연결되어 있어야 하는데, 아래에서는 N (질소) 원자에 연결되어 있다. 사소해보이지만 구조적으로는 큰 차이다. o1-preview에서도 10초 이상을 소요했다. 꽤 정확한 답변이지만 구조를 정확하게 그리는데는 실패했다. 아직 분자 구조 정보를 정확하게 인식하지는 못하는 수준이라고 본다. 그래서 여전히 전문가 시스템이 활용된다고 본다.
챗GPT는 언어모델이다. 그래서 관련 정보를 찾아오는 일은 잘 할 수 있다. 요즘엔 멀티모달이 등장하면서 이미지나 영상도 같이 처리할 수 있게 개발하고 있다. 분자구조는? 이미지도 아니고 텍스트도 아니다. smiles 코드는 문자열로 표기되긴 하지만 분자구조의 화학적 성질을 제대로 표현하기에는 어려움이 있다.
최근 에이전트 시스템이 등장하고 있다. 만약 챗GPT가 전문가 시스템을 도구 (tool)로 사용해서 답변을 제공한다면? 전문가들의 화학지식을 기반으로 답변을 제공할 수 있을거다. 고품질의 대답을 만들어낼 가능성이 높다. 즉 언어모델의 성능을 올리는데에 기여할 수 있다는 의미다. 그래서 향후에도 의미있게 사용될 가능성이 높다고 본다.
rule-based 모델 혹은 전문가 시스템의 예측은 신뢰도가 높은 편인데, 전문가들의 지식을 기반으로 답변을 하고, 예측 결과의 해석이 명확하기 때문이다. 불확실한 답변 보다는 신뢰할 수 있는 정보가 더 의미 있는 경우가 많다. 그래서 지금도 계속 활용되고 있는 예측 방법이다.
'AI와 화학물질' 카테고리의 다른 글
AI 얼마나 정확해요? (1) | 2024.11.19 |
---|---|
AI가 안전하다고 판단한 화학물질? 정말 안전할까? (0) | 2024.11.18 |
간 독성 AI 모델을 해부해봤습니다 (데이터) (0) | 2024.11.16 |
AI로 예측해보는 방부제의 간 독성 (4) | 2024.11.15 |
화학물질이 안전한지 알려주는 무료 AI 프로그램 (2) | 2024.11.13 |