AI 답변에 실망한 사람이 적지 않다. 챗GPT가 처음 출시되었을 때는 답변에 놀랐지만,, 황당한 답변, 말도 안되는 헛소리 등등. 말도 안되는 결과에 실망한 사람들이 많다. 전문적인 분야. 사실성이 중요한 내용. 이런 경우에는 챗GPT를 사용하기 꺼려하거나 기피하는 경우를 보게 된다. 화학물질에 사용되는 QSAR 모델도 AI 기술이 사용되고 있지만, 불신이 많다. 모델 개발한 사람에 따르면 정확도가 80%라고 한다. 그런데 사용하는 사람이 관심있는 화학물질 2개 정도 예측을 해봤더니 다 틀렸다. 그러면 개발한 사람이 80%라고 주장해도, 사용한 사람 입장에서 이 모델의 정확도는 0%. 이렇게 사용자 경험이 안 좋은 경우 다시 사용할 생각도 안 한다. 아무리 편하고 빠르게 답변을 얻을 수 있다고 해도, 쓸모없는 결과를 얻는데는 1초도 낭비하고 싶지 않은 것이다. QSAR 모델은 1950년대 부터 시작이 되었다. 신약 개발 분야에서 가장 많이 사용이 되었다. QSAR 모델이 좋은 후보 물질을 마법처럼 찾아 줄 것으로 생각하는 사람들이 특히 크게 실망했다. 실험 결과와 일치하지 않는 경우가 너무 많았기 때문이다.
여기서 많다는 표현을 사용할 때도 큰 차이가 있다. 모델을 개발하는 사람은 1,000개 이상의 화학물질을 이야기한다. 사실 천개도 많은 것은 아니다. 개인적으로는 십만개 이상 있다고 하면 많은 데이터라고 생각한다. (진짜 많은 데이터는 억 단위의 데이터라고 본다) 그런데 보통 실험 데이터를 생산하는 분들에게는 10개의 물질도 많다. 100개는 너무 많다. 동물 실험을 하는 경우 1년에 10개의 데이터도 생산하기 버거워한다. 세포 실험을 하는 경우 1년에 100개 생산도 힘들어 한다. 예를 들어 모델을 개발한 사람은 10,000개의 데이터로 훈련을 했고 80%의 정확도를 보였다고 한다. 그러면 8,000개 맞췄고, 2,000개는 틀린거다. 사용하는 사람들은 보통 10개 미만의 물질을 모델에 입력해본다. 그런데 안타깝게도 10개 모두 예측이 틀린 2,000개와 유사한 구조라면? 10개 다 못 맞출 가능성이 높다. 이렇다 보니 모델을 개발한 사람과, 모델을 사용하는 사람이 체감하는 모델의 정확도가 많이 다르다.
QSAR 모델이 완전히 실패한걸까? 그렇지는 않다. 규모있는 제약사들은 꾸준히 QSAR 모델 개발에 연구비를 투자하고 있다. 딥러닝 기술을 적용한 예측 모델 개발을 위해 연구를 하고, 내부적으로 활용 가능성을 계속 테스트해보고 있다. 현재 QSAR 모델은 보통 실패할 가능성이 높은 물질을 찾는데 사용되고 있다. QSAR 모델로 신약이 될 가능성이 높은 물질은 찾아내기 어렵다. 하지만 향후 임상 시험 단계에서 실패할 가능성이 높은 물질들을 탈락시키는 용도로 사용된다. 신약 개발에서 비용이 많이 드는 이유는 개발 과정 끝부분인 임상시험에서 실패하는 경우가 많이 발생하기 때문에 그 동안 들인 시간과 비용의 낭비가 심하다. 그래서 실패할 물질을 일찌감치 찾아주는 것도 중요하다. 인공지능이 신약개발에 드는 시간과 비용을 아끼는 방법은 실패할 물질을 미리 찾아내서 불필요한 연구개발 비용을 줄이는 것이다.
QSAR 모델의 불신에는 크게 2가지 원인이 있다. 하나는 모델 사용 과정에서 발생한 문제고, 다른 하나는 모델 자체의 근본적인 한계다. 모델 사용 과정에서 발생한 문제는 모델의 적용범위를 고려하지 않고 예측을 했다는 것이다. 예전에 어떤 분이 과불화합물의 독성을 예측해본 적이 있었다. 이건 예측이 맞을 수가 없다. 사용자가 예측을 잘못했다는 의미다. 과불화합물의 구조를 살펴보면 탄소(C)에 불소(F)가 잔뜩 붙어있다. 모델을 개발할 때 사용한 데이터들은 대부분 탄소(C)에 수소(H)가 붙어있는 구조가 주요 골격을 이룬다. 애초에 골격이 다른 구조를 모델이 집어넣고 맞춰보라고 문제를 낸 것이다. 애초에 모델이 맞출 수 없는 구조를 집어넣고 예측이 틀렸다고 하는 것은 사실 말이 안된다. 애초에 맞추는 것이 불가능한 값을 넣었기 때문이다. 물론 프로그램이니까 아무 숫자값이나 출력은 해주지만, 그 숫자는 믿을 수 없는 숫자다. 이 부분은 모델 적용범위 문제다. 자세한 내용은 이전 포스팅에서 다룬 모델의 적용범위 분석에 대한 내용을 참고하길 바란다.
두번째 원인은 모델 자체의 근본적인 예측 오차다. 100% 맞출 수 있는 모델은 존재하지 않는다. 심지어 데이터도 100% 일치하지 않는다. 이건 무슨 말? 화학물질로 실험을 할 때 기본적으로 발생하는 실험 오차가 있다. 그래서 보통 실험을 할 때 동일한 조건으로 3번 이상 반복을 해서 측정을 한다. 그리고 측정한 값의 평균 값을 보통 사용하게 된다. 실험 데이터도 항상 동일하게 나오지 않는다. 그런데 그 실험 오차 보다 높은 정확도를 갖는다고 주장하는 모델은 문제가 있다. 최근 딥러닝 학회에서 발표한 결과들 중에 이런 경우가 종종 있다. 말도 안되게 높은 정확도를 달성했는데 의미없는 개선이다. 현실에서 그렇게 정확한 실험데이터가 존재하지 않기 때문이다. 로봇으로 자동화된 실험을 하더라도 사소한 차이로 데이터 생산하는 곳마다 약간의 오차가 발생하기 마련이다. 데이터로 학습된 모델이기 때문에 데이터 자체가 갖는 오차를 뛰어넘는 것은 불가능하다.
모델 학습에 사용되는 데이터의 전체 분포를 보면 효과적인 물질만 있는 것이 아니라 효과가 그저그런 물질, 효과가 낮은 물질이 다 같이 섞여있다. 데이터의 분포를 보면 효과가 좋은 물질보다 안 좋은 물질들이 훨씬 많은 대다수를 차지하고 있다. AI는 데이터의 분포를 학습하게 되는데, 애초에 데이터에 실패작이 대부분이다. 실패작이 대다수를 차지하는 데이터로 학습한 모델이 성공작을 찾아낸다? 쉽지 않다. 거의 불가능하다. AI로 훌륭한 신약 후보 물질을 찾는 것은 어렵다. 하지만 별로 전망이 없는 물질을 찾아내기는 쉽다. 그러다 보니 실패할 구조를 탈락시키는 방식으로 활용되기 가장 좋을 수 밖에 없다. 하지만 소수의 물질을 AI에 입력한 분들은 보통 내가 입려한 물질이 얼마나 훌륭한지를 알고 싶어한다. 얼마나 안전하고 독성이 없는지가 궁금해서 모델을 사용한다. 그런데 AI의 결과가 기대와 다를 때 실망한다. 그리고 실험 결과로 검증했을 때 일치하지 않으니 더 크게 실망한다. 실망한 고객은 다시 돌아오지 않는다. 그래서 불신이 만연한 것 같다.
모델의 답변 정확도를 개선하기 위해서는 검증에도 상당한 노력이 필요하다. AI 개발 인력도 부족한 상황에서 검증하기 위한 연구를 하는 것은 정말 쉽지 않다. 그래서 더 많은 사람들이 사용하면서 다양한 활용 사례를 공유하는 것이 AI 개선에 큰 도움이 된다. 많이들 사용해주세요 :D
'AI와 화학물질' 카테고리의 다른 글
속내를 알 수 없는 AI (0) | 2024.11.21 |
---|---|
그래서 AI가 얼마나 정확한건데? (0) | 2024.11.20 |
AI가 안전하다고 판단한 화학물질? 정말 안전할까? (0) | 2024.11.18 |
간 독성 모델 알고리즘 해부 (이게 AI 모델이라고?) (0) | 2024.11.17 |
간 독성 AI 모델을 해부해봤습니다 (데이터) (0) | 2024.11.16 |