인공지능도 사투리를 알아들을까?

인공지능이 환각 형상을 많이 일으키는 경우 중 하나가 우리나라 사투리였다. 사투리를 못 알아듣는 문제가 있었는데, 오늘 다시 테스트해보니 성능이 상당히 개선된 것을 볼 수 있었다. 모델 별로 한번 테스트를 해봤는데, 테스트에 사용한 표현은 두가지다.

프롬프트 1:. 갸가 갸냐? 이거 무슨 뜻이야?

프롬프트 2: '멍 때린다' 이거 무슨 뜻이야?

첫번째는 사투리, 두번째는 자주 쓰는 한국적인 표현. 각 표현이 무슨 뜻인지 모르면 모델이 이상한 헛소리를 한다. 작년에 학회에서 chatGPT 할루시네이션으로 두번째 프롬프트를 사용했었는데, 멍 때린다에서 '멍'을 상처나서 멍든 것으로 이해해서, 멍든 곳을 다시 때리며 안된다는 답변을 한 사례가 소개된 적이 있었다. 과연 해당 표현에 대해서 지금은 어떻게 답변이 나오는지 정리를 해봤다. 답변은 헛소리부터 정상적인 답변 순으로 정리했다.

환각을 유도해보려고 이것저것 해보는데, 요즘엔 모델들 답변이 너무 좋아져서 할루시네이션을 만들어내기가 너무너무너무 어렵다. chatGPT 출시된지 2년 가까이 되가는데, 성능이 엄청나게 개선되었다는 생각이 든다. 서비스 초창기에 써보고 실망한 사람도 많았는데, 첫인상 때문에 실망하지 않고 계속 쓰본 사람들은 이러한 성능 변화를 체감하면서 많이 놀라는 것 같다. 개인적으로는 이러한 이유에서 블로그를 시작한 것도 있다. 모델이 계속 발전하고 변화하기 때문에 이러한 변화의 기록을 남겨보고 싶었다. 같은 질문도 시간이 지난 후에 또 해보고, 답변이 얼마나 바뀌었는지도 계속 기록을 해보면서 인공지능이 어떻게 발전하고 있는지 구체적인 사례 중심으로 기록해보면 재미있지 않을까 생각이 들었다.

1. Le Chat (미스트랄)

Large 2 모델을 사용했는데, 사투리는 못 알아들었지만, 멍 때린다는 표현은 이해를 제대로 했다. 사투리를 알아듣는게 더 난이도가 높은 문제인가보다. 솔직히 사투리는 한국 사람도 알아듣기 어려운 문제라고 생각한다.

2. Llama 3.2 11B

얼마전에 llama 3.2 모델이 출시되었다. 멀티모달도 같이 출시되었는데, hugging face에서 llama 3.2 11B vision instruct 모델을 쓸 수 있게 구현을 해놓았다. 과연 답변이 쓸만한지 테스트 해봤으나,, 둘 다 잘 못 알아듣는다.

전혀 얼토 당토 않은 답변을 내 놓은 걸 보면 멀티모달로 훈련하면서 한국어 능력은 좀 저하된 것 같다. vision 모델은 이미지와 함께 물어볼때 의미있는 것 같다.

실제로 이미지 올리고, 질문을 올렸는데 답변을 정확하게 했다. 말이 좀 길기도 하고, 영어로 나오긴 했지만 10분 후에는 구두를 닦고 있을 것 같다는 답변을 생성했다. 아무튼 한국어로 답변하는 건 어려워하는 듯 하다.

3. llama 3.1 70B

사투리는 틀렸지만, 멍 때린다는 표현은 잘 설명했다. 솔직히 좀 더 틀릴 줄 알았는데 생각보다 나쁘지 않은 결과다. 70B에서 이정도 성능이면 405B는 좀 더 답변 정확도가 높을 것 같다. 못 써봐서 아쉽다.

4. chatGPT

예전에는 이상한 답변으로 굴욕을 겪었으나 GPT4에서는 해당 문제가 전혀 확인되지 않는다. 훌륭하게 답변을 생성했다.

교육할 때 사투리를 입력하면 헛소리를 합니다... 라고 말했었는데 정정해야겠다. 미안 GPT...

5. Gemini

답변이 가장 상세하고 훌륭했다. 첫번째 질문에 대해서 굉장히 자세하게 설명했는데 문맥에 따라 의미가 바뀔 수 있다는 이야기를 한다. 말을 할때 톤의 높낮이 가지 언급하고 있고, 실제 어떤 식으로 활용되는지 대화를 통해 예시를 보여주고 있는 것도 인상적이다. 구글이 한국어 시장을 굉장히 신경쓰고 있다는 이야기를 하는데 이런 결과물을 보면 정말 그런 것 같다.

두번째 멍때린다는 표현에 대한 답변이다. 멍 때린다...가 깊은 생각에 빠지는 건 아니기 때문에 이 부분은 조금 아쉽다는 생각은 들지만,, 재미있는 것은 마지막에 멍 때리기의 효과에 대한 답변도 생성되었다는 점이다. 이런 식으로 설명하는 걸 라디오에서 들어본적 있는 것 같은데, 멍 때리기와 정신건강에 대한 이야기까지 답변 해주는 건 나름 연관있는 정보를 잘 가져왔다는 생각이 든다.

6. Clova X

역시 네이버에서 만든 모델이어서 답변은 정확하다. 사투리에 대한 이해도가 높다. 더 많은 분들이 사투리에 대해서 테스트 해보면 좋을 것 같다. 요즘 모델들 성능이 점점 좋아져서 할루시네이션 만들어내기가 여간 어려운게 아니다.

멍 때리기에서 이녀석도 정신건강 이야기를 한다. 중간에 미국 신경과학자 이야기도 하는데, 이건 할루시네이션이 아닐까 생각해서 관련 내용 검색을 해봤는데 관련 자료가 있다. 블로그에서 정리해놓은 내용들이 있는데 그런 내용들을 참고해서 답변을 작성한 것 같다.

7. Claude

너무 좋아했는데... 이제는 몇번 질문하면 더 이상 답변 안해준다. 하루에 답변 횟수가 정해져 있고, 유료로 전환하라고 유도한다. 이제는 자주 쓰기 어려워졌다.

환각이 얼마나 줄어들었는지를 지속적으로 여러가지 질문을 하면서 테스트해볼 계획이다. 무료로 사용가능한 모델에 대해서만 테스트 해보고 있는데, 무료로 사용가능한 서비스들의 성능이 평균적으로 개선이 되어야 일반 대중들도 많이 사용할 것 같아서 무료 버전만 테스트해보고 있다.

저작자표시 비영리 변경금지

'생성AI' 카테고리의 다른 글

AI랑 AGI랑 그게 그거 아닌가요? (3)	2024.11.14
신입도 단번에 이해시키는 AI 활용 업무 분담 (2 step으로 충분해요) (0)	2024.10.08
비디오 생성 AI를 사용해보고 나서... (5)	2024.09.30
AI가 알려준 의약품 폐기 방법 (0)	2024.09.20
헤엄치는 연어회 실험 (이미지 생성AI 환각 테스트) (1)	2024.09.18

Good Researcher

인공지능도 사투리를 알아들을까?

'생성AI' 카테고리의 다른 글

티스토리툴바

인공지능도 사투리를 알아들을까?

'생성AI' 카테고리의 다른 글

관련글

티스토리툴바