본문 바로가기
AI와 화학물질

속내를 알 수 없는 AI

by Good.PhD 2024. 11. 21.

속내를 절대로 드러내지 않는 사람. 무슨 꿍꿍이인지 알 수가 없다. 신뢰할 수가 없다. 전문가들이 AI를 불신하는 이유도 비슷하다. 모델이 왜 그렇게 답변을 했는지 의도를 파악하기가 어렵기 때문이다. 인공지능 모델을 블랙박스 모델이라고도 한다. 왜 그렇게 추론을 했는지 알기가 어렵기 때문이다. QSAR 모델에서도 마찬가지다. 모델이 어떤 물질을 독성이 있다고 예측을 했다. 왜 그렇게 예측을 했는지 근거가 있다면 좋을텐데, 근거가 없다면? 믿을 수가 없다.

 

화학물질로 실험을 하면 물질의 활성이나 독성을 확인할 수 있다. 하지만 실험 결과가 일치하지 않는 경우도 생긴다. 실제로 세포 실험에서는 독성을 했는데, 동일한 물질이 동물 실험에서는 독성이 나타나지 않는 경우도 빈번하게 있다. 이럴 때는 결과가 불일치하는 원인을 조사해본다. 그리고 그 결과를 바탕으로 실험 결과를 이해하게 된다. QSAR 모델로 예측을 했다. 그런데 실험값과 불일치한다. 왜 그럴까? 잘 모른다. 결과에 대한 충분한 설명이 부족하기 때문에 결과에 대한 불신이 생겨난다.

 

QSAR는 애초에 구조 정보만 이용해서 예측을 한다. 구조 정보만 입력되면 구조의 실험값을 계산해주는 모델이다. 그래서 구조의 변화를 기준으로 실험값의 변화를 설명한다. 원래 예측값의 생물학적인 의미를 설명하는 것은 불가능하다. OECD QSAR validation guideline 마지막 원칙은 모델의 해석을 제공하는 것이다. 구조의 변화가 실험 값의 변화에 미치는 영향을 설명하라는 의미다. 그런데 특이하게 마지막 5번째 원칙은 의무적으로 할 필요가 없다고 언급했다. 왜냐하면 해석이 불가능한 경우가 자주 발생하기 때문이다. 모델의 해석은 어떻게 할까??

 

QSAR 모델에 구조를 입력한다는 말은 사실 반은 맞고 반은 틀린 말이다. 정확하게는 이렇게 동작한다. 구조 정보 >> 표현자 (descriptor) >> 모델 >> 예측값. 이렇게 계산이 이루어진다. 구조를 표현자로 바꾸는 작업이 동반되어야 모델이 작동한다. 표현자? 일반적으로 기계학습 모델에서는 feature (특징) 값이라고 부른다. 교과서를 찾아보면 표현자는 분자 구조를 수학적으로 해석한 값이라고 설명한다. 실용적인 표현으로는 분자 구조에서 계산 가능한 모든 숫자를 표현자라고 할 수 있다. 예를 들면 단순한 값으로는 탄소(C)의 개수, 산소(O)의 개수가 있다. 분자 구조 정보가 있다면 얻을 수 있는 값들이다. 표현자는 전문가들이 분자 구조를 해석할 수 있는 다양한 수식을 개발해서 구조 정보로부터 계산해내는 값이다. 이 표현자 값들은 구조를 대변하는 숫자다. 그래서 구조를 입력했다고 하는 말이나 표현자를 입력했다고 하는 말이나 같은 뜻이다. 표현자 값이 유사하면 구조도 유사하다. 분자 구조의 주요한 특징 정보를 모델에 입력하면, 모델은 이 값으로부터 해당 구조의 실험 값을 계산한다. 모델이 분자 구조의 주요한 특징 값으로부터 실험 값을 예측해내니, 모델은 구조 정보와 실험 값 간의 관계를 찾아낸 수식이라고 할 수 있다. 그래서 모델을 해석하면 분자 구조와 실험값 간의 상관 관계를 찾아낼 수 있어야 한다.

 

이론적으로는 그렇기는 하지만, 현실에서 불가능한 경우가 자주 발생한다. 그 이유는 표현자를 해석하는 것이 어렵기 때문이다. 어떤 표현자들은 분명히 분자 구조에서 계산된 값이긴 한데, 도대체 무슨 의미인지 파악이 안되는 것들이 있다. 그런데 하필이면 이렇게 해석이 어려운 표현자가 모델에 사용되었을 때 모델의 예측 정확도가 높아진다. 해석이 쉬운 값들은 아무리 사용해도 정확도 개선이 안되는데... 모델을 해석하려면 먼저 모델이 어느정도 정확한 예측을 할 수 있어야 한다. 그 뒤에야 해석이 의미가 있는 것이다. 그래서 해석이 용이한 표현자를 사용했는데, 예측 정확도가 안 좋다면..? 해석을 할 것이 없다. 해석하기 어려운 표현자를 사용해서 모델이 좋은 예측력을 보인다면..? 좋긴 한데 의미를 해석하는 것은 불가능하다. 그래서 이래저래 모델의 해석을 제공하기가 어렵다.

 

이러한 단점을 극복하기 위해 모델을 해석하는 여러가지 방법들이 연구되고 있다. 모델 해석은 여전히 난제다. 설명가능한 인공지능 (eXplainable AI)을 XAI라고 부른다. XAI 방법이 크게 개선된다면 QSAR 모델의 신뢰도 또한 크게 개선될 수 있다. 전문가들에게 정보를 제공한다면 설명가능성은 신뢰도와 직결되는 문제다.