AI가 예측해준 결과를 믿어도 될까? 환각 현상이 난무하는데... 챗GPT를 상당 기간 사용해본 분들은 한 두번쯤 경험해봤을 것이다. 말도 안되는 답변이 나오는 경우를 심심치 않게 본다. 독성 예측 모델이라고 다를까? 다르지 않다. 이 녀석들도 안전한 물질인데 위험하다고 하기도 하고, 반대로 위험한 물질인데 안전하다고 답변을 할 때도 있다. 챗GPT 답변은 검색해서 찾아보기라도 하면 되지... 화학물질에 대한 예측 결과는 실험을 해봐야 한다. 한달 걸리는 실험도 있고, 반년 걸리는 실험도 있고, 2년 걸리는 실험도 있다... 이렇게 하지 않고도 모델의 답변 신뢰도를 알아낼 수 있는 방법은 없을까?
답은 데이터에 있다. 모델을 훈련할 때 사용한 데이터를 바탕으로 모델의 예측 결과를 분석해보는 것이다. 이 내용은 OECD QSAR validation guideline 3번째 원칙에 해당된다. 모델의 적용 범위 (applicability domain)을 확인하라는 내용이다. 적용범위가 뭘까? 모델을 적용했을 때 믿을 만한 결과가 나오는 범위를 말한다. 무슨 범위? 화학물질의 구조 범위다. 모델을 훈련할 때 사용한 데이터에 있는 화학물질들의 구조와 유사한 화학물질이라면 예측 결과도 정확할 가능성이 높다는 의미다. 그래서 모델 훈련 데이터와 사용자가 입력한 새로운 화학물질 간의 구조 비교를 바탕으로 예측 결과의 신뢰도를 판단하게 된다.
식품 부패를 방지하는 안식향산의 발암성을 예측해봤다. 이전 글에서는 계속 간 독성 결과를 바탕으로 이야기를 진행했었는데, 간 독성 예측 결과에서 적용범위 분석 내용이 없어서 발암성으로 바꿔봤다. 안식향산은 이미 데이터셋에 포함이 되어 있었다. 그래서 실험값을 바로 알려줬는데 발암물질이 아닌 것으로 확인되었다. 그런데..! AI 모델 답변은 발암물질(Carcinogen)이라고 나왔다. 실험 결과와 예측 결과 사이에 누구를 믿어야 할까? 당연히 실험결과다. 그러면 이 녀석 왜 안전한 물질을 발암성이라고 알려줬을까?
안식향산에 대한 예측 결과 발암성일 가능성을 점수로 표시했다. 0.778점. 반대로 발암성이 아닐 경우는 0.222점을 받았다. 보통 0.5보다 큰 값을 최종 결과로 보고한다. 그래서 발암성이라고 예측이 됐다. 그런데 그 밑에 신뢰도 (reliability)를 읽어보면 예측한 화합물은 모델의 적용범위 밖에 있다고 분석을 해줬다. 그 말은 예측 결과를 믿으면 안된다는 뜻이다. 적용 범위 분석 결과를 살펴보자.
가장 위에 있는 화합물이 안식향산이다. 그리고 그 밑에 5개는 안식향산과 유사한 물질들이다. 데이터에 포함된 물질 중 안식향산과 매우 비슷한 물질들만 가져와서 적용 범위 분석을 진행한 결과다. 일단 안식향산과 유사한 물질들 대부분이 발암성이 아닌 것으로 확인된다. 마지막 한가지만 예외적으로 발암성 물질이다. 유사한 물질들 중에 기가막히게도 안식향산만 AI의 예측이 빗나갔다. 그러면 이 프로그램은 왜 예측 결과를 믿으면 안된다고 결론을 내린 것일까? 아래는 좀 더 자세한 적용범위 분석 결과다.
가장 첫번째 global AD index 값은 전체적인 결과에 대한 설명이다. 안식향산은 0점을 받았다. AI 모델 결과가 거짓이라고 결론을 내렸다. 그 다음부터 차례대로 적용 범위를 분석했다.
1) 모델 훈련 데이터에 유사한 화학물질이 있는가? 매우 비슷한 모델이 많아서 높은 점수 1을 받았다.
2) 유사한 화합물들의 예측 정확도는? 유사한 물질들의 예측 정확도가 영 아니었다고 해서 0점을 받았다.
3) 유사한 화합물들의 실험 값들과 예측 결과 값이 일치하는가? 유사한 화합물들 대부분이 발암성 물질이 아니었는데, 안식향산 예측 결과는 발암성으로 나왔다. 그러니 비슷한 물질들과 전혀 다르다고 예측이 되었기 때문에 믿을 수 없다. 그래서 0점을 받았다.
4) 모델의 특징 값 범위 확인. 화학물질을 숫자값으로 전환한 후에 AI 모델이 결과를 내놓는데, 이때 숫자값으로 전환된 값이 데이터 전체 분포와 일치하는지 비교한 정보다.
5) 분자 구조 패턴 확인. 분자 구조를 작게 쪼개면 여러가지 구조 패턴들을 만들어 낼 수 있는데, 데이터 셋에 없는 특이한 패턴이 있는지 확인한 정보다.
6) 모델이 독성이 있을 확률, 없을 확률을 둘 다 계산해주는데 두 값이 충분히 큰 차이가 나는지? 독성이 있을 가능성 0.55, 없을 가능성 0.45.. 이렇게 애매한 숫자로 나오면 결과값에 의문이 들 수 있다. 이번 경우에는 그렇지는 않았다.
7) 마지막 값은 Self-organizing map (SOM)이라는 기술을 사용해서 데이터를 클러스터링한 결과라고 본다. 비슷한 클러스터링에 있는 데이터의 실험값과 예측 값이 잘 일치한다는 의미다.
이렇게 여러가지 분석을 진행했다. 그런데 2개 항목에서 0점을 받았기 때문에 AI모델의 답변을 절대 믿으면 안된다고 썼다. (적용범위 밖에 있다는 의미가 믿으면 안된다는 뜻이다.) AI 모델이 제공한 답변은 항상 검증할 수 있는 방법들이 여러가지 있다. 화학물질의 독성을 예측하는 경우는 유사한 구조들의 실험값과 같이 비교함으로써 결과의 신뢰도를 분석할 수 있게 도와준다. 그래서 아무 물질이나 넣어서 예측해보고 나서 독극물이라고 소란 피우지 말고... 적용 범위 분석을 꼭 확인해보시길 바란다.
'AI와 화학물질' 카테고리의 다른 글
그래서 AI가 얼마나 정확한건데? (0) | 2024.11.20 |
---|---|
AI 얼마나 정확해요? (1) | 2024.11.19 |
간 독성 모델 알고리즘 해부 (이게 AI 모델이라고?) (0) | 2024.11.17 |
간 독성 AI 모델을 해부해봤습니다 (데이터) (0) | 2024.11.16 |
AI로 예측해보는 방부제의 간 독성 (4) | 2024.11.15 |