본문 바로가기
생성AI

LLM간 할루시네이션 비교 (세종대왕이 맥북프로를 던진 사건)

by Good.PhD 2024. 9. 16.

할루시네이션은 우리 말로 환각이라고 한다. 소위 사람들이 AI가 거짓말한다고 하는게 할루시네이션이다. 환각은 모델이 모르고 있는 정보에 대해서 물어볼때 발생하는 것 같다. deeplearning.ai에서 upstage 강의를 들어보면 pretraining 과정에서 모델이 접하지 못한 정보에 대해서는 모델이 전혀 모른다는 이야기를 한다. 그래서 모델의 지식을 개선시키려면 pretraining 과정이 필수적이라고 한다. 모델이 지식은 없지만 말은 할 줄 아니 사용자의 질문에 대해서 부정확한 답변을 그럴듯한 문장으로 만들어내는 이유는  pretraining 과정에서 제대로 학습을 못한 정보이기 때문이라고 생각한다.

 

개인적으로 찾은 2가지 할루시네이션을 모델 별로 비교해보는 실험을 해보려고 한다.

바로! 세종대왕이 맥북 던진 사건에 대한 할루시네이션 유도 실험.

세종대왕 할루시네이션

이런 질문을 한 사람의 창의력이 존경스럽다. 조선왕조실록에 기록된 사건이냐고 콕 찝어서 물어봤는데, 챗GPT 답변을 보면 조선왕조실록에 기록된 사건이라고 했다. 이 할루시네이션은 챗GPT 서비스가 시작된 후 얼마 안되서 발생한 현상이다. 그래서 지금 물어보면 어떻게 답변을 하는지 확인해보려고 한다.

 

모델은 다음과 같이 사용해보려고 한다.

1. ChatGPT (코파일럿, 뤼튼): openAI 웹사이트에서 제공되는 챗GPT와 더불어 챗GPT에 기반하고 있는 다른 서비스에도 테스트를 해보려고 한다. (참고로 유료 버전은 사용하고 있지 않기 때문에 무료 버전으로 제공되는 GPT-4를 사용해보려고 한다.)

2. Claude: 얼마전까지 최고 성능이었는데, 최근 GPT-o1이 나오면서 최고 성능이라고 하기엔 무색해졌다. 그래도 내 의도 파악도 잘하고, 한국어 표현도 자연스럽게 작성된다는게 큰 장점이긴 하다.

3. Gemini: 구글에서 개발한 모델

4. Clova X: 네이버에서 개발한 모델

5. Le chat: 미스트랄에서 개발한 모델 (https://chat.mistral.ai/chat)

6. HuggingChat (https://huggingface.co/chat/): 허깅페이스는 인공지능 모델을 쉽게 사용할 수 있는 플랫폼이다. HuggingChat에서는 일부 open source 모델들을 사용할 수 있도록 구현을 해두었다. (메타 llama 3.1 70B, Cohere c4ai-command-r-plus, 미스트랄 Mixtral 8x7B, NousResearch Nous-Hermes-2-Mixtral-8x7B, 미스트랄 Mistral 7B, 마이크로소프트 phi-3-mini-4k)

 

Hugging Face – The AI community building the future.

The Home of Machine Learning Create, discover and collaborate on ML better. We provide paid Compute and Enterprise solutions. We are building the foundation of ML tooling with the community.

huggingface.co.

 

메타 llama 70B와 같이 70B는 모델의 크기를 의미한다. 70 billion이다. 즉, 모델 파라미터가 700억개 있다는 의미인데, meta llama에서 가장 큰  모델은 llama 3.1 405B다. 4천억개 파라미터인데, 모델을 설치하려면 용량이 꽤 많이 들어간다.  코파일럿에 물어보니 820GB의 저장공간이 필요하고, 메모리는 1TB 정도 있어야 된다고 한다. 아무나 사용할 수 있는 모델이 아니다. 대부분 성능이 좋은 언어 모델들은 llama 3.1 405B 처럼 거대하다. 그래서 거대언어모델이라고 부른다. 그리고 일반 PC에 설치해서 사용할 수가 없기 때문에 웹에서 서비스를 제공해주는 사이트에 들어가서 사용할 수 밖에 없다. 나는 개인적으로 무료를 좋아해서 open source 모델들을 써보려고 했으나,, 현재로써는 open source 모델 운영 비용이 훨씬 비싸다... 모델을 운영하기 위한 컴퓨터를 갖추는게 문제다.

 

환각 유도 질문 1 ( 조선왕조실록에 기록 된 세종대왕의 맥북프로 던짐 사건에 대해 알려줘 )

 

1. 챗GPT

챗GPT 답변

 

이제는 안 속는듯..  답변에서 보면 시기가 일치하지 않는다는 답변을 했다. 그래서 상관이 없다고 했다. 

 

2. 코파일럿

코파일럿 답변

 

이 녀석은 밈으로 돌아다닌다고 찾아냈다. 유명한 일화라 그런지 출처가 신문에서 출처를 가져온 것도 보인다.

 

3. 뤼튼

뤼튼 결과

 

뤼튼에서도 동일하게 답변이 나왔고, 옆에 참고자료도 보인다. 참고한 기사의 제목에서 분노가 느껴진다. '뻔뻔한 거짓'이라니... 

 

4. 제미나이

제미나이는 답변 말투가 좀 특이했다. 글의 제목도 지어주는 듯..?

제미나이 답변

 

글에서 초록색으로 강조된 부분은 실제 검색한 결과라는 의미이다. 그냥 표시해주지는 않고 답변 밑에 G 아이콘이 하나 있는데, 그걸 누르면 검색 결과를 찾아준다.

 

5. 클로드

클로드 답변

 

클로드에서도 시간적인 이유로 안된다고 적어줬다.

 

6. Clova X

Clova X 답변

 

여기는 당연히 정확한 답변을 줄 거라고 생각했다. 마지막에 결과 잘 검증하라고  답변을 준 부분이 인상적이다.

여기까지는 내가 자주 혹은 가끔이라도 사용하는 모델들이고 환각이 없을 거라고 생각한 모델들인데 그 다음 모델들은 어떨런지...

 

7. 미스트랄 Le chat

미스트랄 모델

 

생각보다 답변이 잘 나왔다. 잘 사용하지는 않기는 하지만 그래도 만족스러운 답변.

 

8. HuggingChat (메타 llama 3.1)

너무 유명한 사례라 그런지 속는 모델이 없다.

llama 3.1 70B 모델 (HuggingChat)

 

9. HuggingChat (Cohere 모델)

여기서는 환각이 발생했다 :) 좋긴 한데 좋아해야 할지.. RAG로 개발되었다고 해서 쓸만하다고 생각하던 녀석이었는데...

cohere 모델 환각 현상

 

10. HuggingChat (Mixtral-8x7B)

세종대왕이 맥북을 던진 이유에 대한 새로운 썰을 찾아냈다...

Mixtral 8x7B

 

11. HuggingChat (NousResearch)

Mixtral 8x7B를 기반으로 한 모델인 것 같은데 답변이 꽤 정확하게 나왔다.

NousResearch 모델

 

12. 미스트랄 (Mistral 모델)

처음 질문에 대해서 영어로 답변을 해서, 한국어로 답변해달라고 했는데 한국어를 어려워하는 교포가 답변한 것 처럼 답변이 나왔다 ;;

미스트랄.. 이녀석..

 

13. 마이크로소프트 모델 (phi-3-mini-4k)

MS 모델

신박한 썰이 또 나왔다.

 

일부 모델들은 아직도 할루시네이션을 보이긴 한다. 자주 사용하는 모델들은 성능이 괜찮은 것으로 보인다.

원래 실험을 2가지 하려고 했는데, 하나 하는데도 너무 오래 걸려서.. 다음 기회에!