독성 예측으로 수익을 올리고 있는 프로그램들을 소개해봤다. 오늘 소개하는 소프트웨어의 공통점은 딥러닝 기술을 전혀 사용하지 않는다는 것이다. 독성 예측 서비스를 제공한다고 할 때 인공지능을 썼는지, 딥러닝을 썼는지는 사실 전혀 중요하지 않다. 예측 결과가 얼마나 정확한지가 핵심이다. 내부에 무슨 기술을 썼는지는 사실 부차적인 문제다. 현재 시장에서 잘 팔리고 있고, 좋은 성능을 보이는 소프트웨어에는 딥러닝 기술이 없다.
1. OECD QSAR toolbox (Laboratory of Mathematical Chemistry, LMC)
이 프로그램은 무료로 다운로드 받을 수 있다. 그런데 어떻게 돈을 버냐고? 이 프로그램은 불가리아에 있는 LMC (Laboratory of Mathematical Chemistry)에서 개발했다. OECD와 ECHA에서 돈을 지불하고 계약을 해서 개발하고 있는 프로그램이다. 지속적인 계약을 통해 소프트웨어를 계속 업데이트해서 서비스를 제공하고 있다.
LMC에서는 이 프로그램 외에도 다양한 프로그램들이 있는데 대형제약사 및 글로벌 화장품 기업에서 사용하는 프로그램들이다. 매년 상당한 라이센스 비용을 지불하면서 사용하고 있다. LMC에서 개발한 소프트웨어는 왜 잘 나가는 예측 소프트웨어가 되었을까? 2가지 pain point에 집중하고 있기 때문이다. 첫번째는 데이터다. 딥러닝이 사용되었든 기계학습이 사용되었든 정확도에 큰 차이가 없다. 왜냐하면 수집할 수 있는 데이터가 다 비슷하기 때문이다. 얼마나 복잡한 알고리즘을 적용해서 모델을 만들었는지 보다 훨씬 중요한 것은 데이터의 퀄리티다. 데이터가 개선되지 않는다면 모델의 성능도 개선되지 않는다. 그래서 데이터를 잘 수집하고 정리하는 것이 예측 정확도를 높이는데 가장 중요하다. 데이터 수집과 정리는 가장 힘들고 오래 걸리는 노동 집약적인 작업이다. 보통 딥러닝 연구를 한다고 해도 이 데이터를 모으고 정리하고 분석하는 작업은 다들 기피한다. 이 더럽고 힘든 일을 해야 좋은 퀄리티의 예측 성능이 나오는 데 그걸 잘 안한다. LMC에서는 고급인력을 다수 고용해서 데이터 수집과 정리에 굉장한 노력을 기울이고 있다. 그러니 개발한 소프트웨어의 성능이 탁월할 수 밖에 없다. 두번째 pain point는 예측 값의 설명이다. 딥러닝을 써도 예측 값에 대한 근거가 함께 제공되지 않는다. LMC에서 개발된 소프트웨어는 예측 값과 함께 근거 자료를 제공한다. 논문에서 얻어진 데이터와 논리적인 근거를 바탕으로 예측 결과를 제공한다. 예측 결과가 실험 결과와 일치하지 않는다면? 예측 결과가 틀린 걸까? 예측 결과를 뒷받침하는 자료를 반박할 수 있어야 예측이 틀렸다고 할 수 있다. 그렇지 않으면 실험이 잘못 된거다. 특히 두번째 이유는 실제 예측 값을 활용할 때 가장 중요한 부분이다. 다른 소프트웨어에서 볼 수 없는 강력한 selling point다.
LMC에서 제공하는 프로그램들의 가격은? 알수 없다. 직접 연락해보시길.. 보통 이런 소프트웨어의 가격은 정해져 있지 않다. 영리기업들 대상으로만 제공한다. 학술 연구 한다고 해서 저렴하게 공급해주고 하는 거 없다. 높은 가격을 지불해야 하며, 그 가격을 지불할 수 있는 곳만 사용할 수 있는 소프트웨어다. 높은 값을 하는 예측 프로그램이다. 현재까지 본 서비스 중에 가장 성공적인 예측 서비스라고 본다. OECD QSAR Toolbox에서는 딥러닝을 사용하고 있을까? NO. 데이터베이스에서 필요한 정보를 빠르게 찾아내는 것이 LMC의 핵심 기술이다. 데이터베이스 내에 정보가 없으면? 유사한 구조만 선택해서 사용자 맞춤 예측을 제공한다. 유사한 구조는 어떻게 선택할까? 다양한 옵션이 있다. 구조가 유사한 경우, 메커니즘이 유사한 경우, 유사한 약물 대사 과정을 거치는 경우. 그래서 OECD QSAR toolbox는 실제로 사용이 쉽지 않다. 전문 지식을 갖춘 사람이 제대로 사용할 수 있는 프로그램이다. 상황에 따라 구조가 유사한 것을 선택해야 할 수도 있고, 메커니즘이 유사한 구조를 선택해야 할 수도 있다. 이러한 결정을 내릴 수 있는 전문 지식을 갖춘 사람을 위한 툴이다.
2. Derek Nexus (Lhasa Limited)
Derek Nexus는 rule-based 모델로 서비스를 제공한다. 이 모델은 예전에 간 독성 예측 모델 찾아보다가 처음 알게 되었다. 좀 오래된 모델은 공개되어 있는 것으로 알고 있다. 그 이후로 업데이트 된 내용은 공개되어 있지 않다. 전문가들이 찾아낸 구조 패턴을 기반으로 독성을 예측한다는 의미. 그래서 독성이 확인되었을 때, 왜 독성이 있는지를 구조로 설명할 수 있다. 예측할 수 있는 독성 값도 굉장히 다양하다. 장기별 독성 예측 서비스도 제공을 하고 있다. 이 서비스를 제공하는 Lhasa Limited에서는 이 외에도 다양한 소프트웨어를 제공한다. Lhasa Limited에서는 매년 업데이트된 서비스를 소개하는 시간을 갖는다. 예전에 소개된 세션에서는 약물의 합성 과정을 예측하고, 중간에 생기는 부산물의 유전독성을 예측하는 서비스도 있다. Derek Nexus가 사용하기 쉽고 많이들 활용하지만, 그 외에도 유용한 서비스들이 다수 있다.
그러면 여기서는 딥러닝 모델을 사용할까? 여기도 사용하지는 않는다. Rule-based 모델 정해져있는 패턴을 찾아내는 방식이다. 그러니 딥러닝 기술이 비빌 구석이 없다. 앞에서 언급한 약물의 합성 경로에서 생기는 부산물의 유전 독성을 예측하는 기술에서도 딥러닝 기술은 없다. 논문에 발표된 것들을 보면 활용될 수 있는 가능성이 보이지만, 현재로서는 없다.
https://www.lhasalimited.org/solutions/
Derek Nexus의 가격은 얼마나 될까? 비영리 기관에서 학술적으로 쓰는 것과 영리 기관에서 사용하는 경우 가격이 다를 수 있다. 하지만 정확한 가격은 직접 연락을 해봐야 한다. 비영리 목적으로 사용해봤었는데 구매해야 하는 최소 라이센스 개수가 정해져 있어서 가격대는 높은 편.
3. CASE Ultra (MultiCASE)
이 프로그램은 최근에 알게 되었다. 가장 처음에 알게 된 것은 미국독성학회 (Society of Toxicology, SOT)에서 MultiCASE가 주관하는 행사를 통해 처음알게 되었다. QSAR 2023학회에서도 MultiCASE 에서 참석한 분들을 몇분 만나게 되서 대화를 좀 나눌 기회가 있었다. 재미있는 것은 MultiCASE에서 오신 분이 학회장에서는 딥러닝에 대한 연구 동향을 소개해주었는데, 막상 소프트웨어에는 딥러닝 서비스가 없다고 했다. 실제로 딥러닝을 사용했다고 해서 예측력이 현저하게 개선되지는 않은 것이 주요 문제점이었다.
Derek Nexus나 CASE Ultra에서 함께 강조하는 것은 ICH M7 가이드라인이다. ICH는 International Council for Harmonisation의 약어다. 국문으로 국제의약품조화위원회라고 번역을 하는데 여기서 발표한 가이드라인 중 하나다. ICH M7은 의약품 불순물에 대한 유전독성 예측에 대한 내용인데, 여기서 실험 없이 예측 값으로 결과를 제출할 수 있다고 명시하고 있다. 이렇게 규제에서 예측 모델을 사용하라고 장려하고 있기 때문에 해당 가이드라인을 이해하는 것이 중요하다.
https://multicase.com/in-silico-applications/ich-m7/
독성 예측은 규제와 밀접한 연관이 있다. 특히 새로운 예측 기술이 적극적으로 사용되려면 이러한 규제적인 변화가 같이 있어줘야 한다. 규제에서 납득할 수준의 예측을 제공하는데 초점을 맞추고 기술을 개발할 필요가 있다.
4. ADMET predictor (Simulation plus)
Simulation Plus는 PBPK (Physiologically-based pharmacokinetics)모델이 주력 소프트웨어로 보인다. PBPK 모델은 미분 방정식을 바탕으로 약물의 ADME 과정을 동역학적으로 시뮬레이션 하는 모델이다. PBPK 모델에는 다양한 파라미터들이 사용되는데, 이 파라미터들이 약물 별로 다르다. 그래서 실험값이 없는 경우에는 QSAR 모델을 이용해서 PBPK 모델 계산에 필요한 파라미터들을 계산해서도 시뮬레이션을 진행하기도 한다. ADMET predictor도 PBPK 모델을 보조하기 위해서 개발된 것으로 보인다. 실제 사용할 때는 필요한 모델만 구매해서 계약을 했었다. 그래서 상대적으로 저렴하게 사용할 수 있어서 좋았다. 여기도 딥러닝 기술 보다는 시뮬레이션 기술과 기계학습 모델을 기반으로 예측을 수행한다.
5. ACD/Labs
이 프로그램은 사용해본적은 없다. 조사하면서 알게된 프로그램이다. QSAR 2023 학회 때도 참여해서 홍보를 했던 기업 중 하나다. 분석 화학 관련 다양한 소프트웨어를 개발하고 있으며, 독성 예측은 작은 부분 중 하나로 보인다. 90년대에 시작해서 벌써 30년이 된 기업이라고 하니 예측 서비스 중 꽤 오래된 서비스다. 학회에서도 발표한 내용은 딥러닝을 적용한 모델 개발이 아니었다. 신규 endpoint를 예측할 수 있는 모델 개발이었다.
위 프로그램들에서 딥러닝을 사용하기 어려운 이유는 아래와 같다.
1. 데이터가 많지 않다.
2. 딥러닝을 사용한다고 해서 예측력이 현저하게 개선되지는 않다.
독성 예측 프로그램들의 selling point는 정리하면 아래와 같다.
1. 예측의 논리적인 근거 자료를 제공한다.
2. 다른 곳에서는 예측할 수 없는 실험값을 예측할 수 있다.
3. 규제에서 사용을 권고하고 있다. (ICH M7)
최근 딥러닝 스타트업들이 많지만, 딥러닝을 사용했는지는 사실 별로 중요하지 않다. 복잡한 기술이 중요한 것이 아니라 예측값이 정확한 것이 중요하며, 예측 값의 당위성을 설명하는 것이 중요하다. 이를 위해서 가장 신경써야 하는 부분은 데이터의 수집이다. 어떤 데이터에서 차별을 갖고 있는지가 사실 핵심 역량이라는 의미. 그냥 공개된 데이터 잔뜩 모으는 것은 별 의미가 없다. 나만 할 수 있는 차별성 있는 데이터 확보 여부가 예측 결과의 차별성으로 이어진다. 그런데 데이터 수집은 오래 걸리고 시간도 많이 걸린다. 정리하는 것도 어렵고.. 그래서 이 분야는 오랜 시간 공을 들여 데이터를 꾸준히 쌓고 정리하고 발전시키는 기업만이 살아남는 시장이다.
'AI와 화학물질' 카테고리의 다른 글
알파폴드 이보다 단순하게 설명할 순 없다 (0) | 2024.11.25 |
---|---|
AI로 알아보는 마리화나의 독성 (0) | 2024.11.24 |
노벨화학상 받은 AI? 잘 사용하지 않는 이유... (1) | 2024.11.23 |
AI는 어떻게 악용될 수 있을까? (1) | 2024.11.22 |
속내를 알 수 없는 AI (0) | 2024.11.21 |