본문 바로가기
생성AI

거대언어모델 (LLM) 토큰 사이즈 이슈

by Good.PhD 2024. 8. 19.

거대언어모델에서 입력/출력하는 토큰 개수의 한도가 정해져있다.

토큰은 단어와는 조금 다른 개념이다. 단어외에도 자주 쓰이는 문법 성분을 별도로 토큰으로 표기하기도 하기 때문이다.

예를 들면, Eating 이라는 단어가 있으면 eat이라는 토큰과 ing 토큰으로 나뉠 수 있다.

 

아래 웹사이트에 문장을 입력해보면 token 수를 계산해준다.

https://llmtokencounter.com/

Eating healthy food makes me healthy 라는 문장을 입력하면 36개 글자, 6개 단어, 9개 토큰으로 구성된 문장이라고 알려준다.

 

아래는 클로드로 테스트를 해본 내용이다. 블로그 글을 입력해서 글을 다듬어보려고 했다.

 

프롬프트: 블로그에 작성한 내용인데 그냥 생각나는대로 구어체로 작성했음. 가독성을 높힐 수 있도록 수정해줘

 

클로드 답변

네, 이 글의 가독성을 높이기 위해 내용을 정리하고 구조화하겠습니다. 주요 내용을 유지하면서 더 명확하고 읽기 쉽게 수정하겠습니다.


생성 AI의 일상적 활용: 개인적 경험과 사례

  1. 생성 AI와의 첫 만남

챗GPT 출시 이후, AI 교육 기회를 통해 생성 AI를 본격적으로 접하게 되었습니다. 강의 준비 과정에서 테스트를 거듭하며 그 뛰어난 성능에 매료되어, 현재는 업무와 일상 대부분에 생성 AI를 적극 활용하고 있습니다.

  1. 가족과 함께하는 AI 프로젝트

생성 AI를 가족과 함께 활용하는 아이디어를 구상 중입니다:

  • Lasco.ai를 이용해 자녀의 그림으로 새로운 이미지 생성
  • 3D 프린터와 AI를 결합한 맞춤형 장난감 제작
  • 가족만의 독특한 동화책 만들기

이러한 프로젝트를 통해 추억을 쌓고, 창의력을 키우며, 가족 간 유대감을 강화할 수 있을 것 같습니다.

  1. 주로 사용하는 무료 AI 도구들
  • 마이크로소프트 엣지 코파일럿: 검색과 프로그래밍에 활용
  • 클로드(Claude): 글 다듬기에 사용
  • 마이크로소프트 엣지 내장 AI: 영문 작성 및 교정에 유용
  1. 일상에서의 생성 AI 활용 사례

a) 새끼 거북이 키우기

  • 코파일럿을 통해 거북이 종류 식별 및 사육 정보 검색
  • 먹이, 환경 관리 등 전반적인 돌봄 정보 수집

b) 가전제품 문제 해결

  • 에어컨 에러 코드 해석 및 해결책 검색

c) 회의 및 세미나 참석 시

  • 생소한 용어나 개념 실시간 검색
  • 발음으로 들은 단어의 정확한 철자 및 의미 파악

d) 프로그래밍

  • 라이브러리 사용법 빠른 습득
  • 효율적인 코드 작성 및 최신 기능 활용

e) 프로그래밍 교육

  • 학습자 중심의 실습 위주 교육 진행
  • 생성 AI를 활용한 자기 주도적 학습 유도
  1. 결론

생성 AI는 일상 생활의 다양한 영역에서 활용 가능한 강력한 도구입니다. 지속적인 활용과 실험을 통해 AI의 잠재력을 최대한 끌어내고, 더 나은 삶의 질을 추구할 수 있을 것입니다. 앞으로도 새로운 활용 방안을 모색하고, 가족과 함께 AI를 통한 창의적인 활동을 이어나갈 계획입니다.

CopyRet

 

클로드가 성능이 참 마음에 든다. 그런데 사실 내가 원했던 것은 요약은 아니었다. 그래서 다시 요청을 했다.

프롬프트: 요약하지 말고, 원래 글에서 표현만 조금 다듬어줘

클로드 답변

알겠습니다. 원래 글의 내용을 유지하면서 표현만 약간 다듬어 보겠습니다.


챗GPT가 출시된 이후에도 처음에는 큰 관심이 없었습니다. 그러나 우연한 기회로 AI 교육을 하게 되면서 챗GPT를 접하게 되었습니다. 강의 준비를 위해 몇 번 테스트를 해보니 성능이 너무 좋아 점점 더 자주 사용하게 되었습니다. 현재는 업무의 대부분에 생성 AI를 적극적으로 활용하고 있으며, 교육할 때도 활용하고 일상에서도 꽤 많이 사용하고 있습니다. 이렇게 다양하게 사용하고 있는 경험을 정리하고 기록으로 남겨두면 좋겠다는 생각이 들었습니다.

시간이 지나면서 같은 입력에도 다른 결과물이 나오는 것을 보며, 이러한 기록이 나중에도 좋은 공부 자료가 될 것 같다는 생각을 했습니다. 또한, 가족과 함께 생성 AI를 활용해 시간을 보내는 것도 좋겠다는 아이디어가 떠올랐습니다. 예를 들어, Lasco.ai 같은 서비스를 이용해 원하는 이미지를 업로드하고 새로운 이미지를 생성할 수 있습니다. 둘째가 그림을 잘 그리는데, 둘째가 그린 그림으로 이미지를 생성하면서 함께 시간을 보내면 어떨까 하는 생각이 들었습니다.

이렇게 하면 추억도 쌓고 아이가 그린 그림으로 새로운 아이디어도 만들어낼 수 있을 것 같습니다. 첫째는 이것저것 만드는 걸 좋아하는데, 그런 자료들을 잘 모아두었다가 나중에 아이가 만든 작품을 가지고 생성 AI로 아이디어를 발전시켜 3D 프린터로 재미있는 장난감을 만들 수도 있지 않을까 생각했습니다. 또한, 아이들과 나누는 일상적인 대화를 바탕으로 우리 아이들만을 위한 맞춤형 동화책을 만들어볼 수 있겠다는 아이디어도 떠올랐습니다.

원래 기록을 좋아하는 사람이라면 사진으로 모든 것을 남겨두겠지만, 저는 그런 것을 귀찮아하는 성격입니다. 그래서 이런 소규모 가족 프로젝트를 통해 기록을 남겨야겠다는 의무감을 갖고 싶은 마음도 있습니다.

같은 값이면 다홍치마라고, 가능하면 무료 서비스를 선호하는 편이라 현재 무료로 사용 가능한 AI 툴들을 활용한 사례들을 정리해보려고 합니다. 현재 검색에는 마이크로소프트 엣지의 코파일럿을 자주 사용합니다. 프로그래밍할 때도 상당히 자주 활용하는 편입니다. 작성해놓은 글을 다듬을 때는 클로드(Claude)를 사용합니다. 어떤 분이 생성 AI에 MBTI를 붙여주는데 챗GPT는 'T'고 클로드는 'F'라고 하더군요. 클로드가 참 친절하게 글을 잘 써주는 것 같습니다.

지금은 마이크로소프트 엣지에서 글을 작성하고 있는데, 엣지에서 바로 생성 AI를 이용해 글을 다듬을 수 있는 기능이 있어서 최근에는 크롬에서 엣지로 옮겼습니다. 다만, 영어는 잘 작성해주는데 한글은 아직 어색한 편입니다. 아마도 한글 프롬프트를 영어로 번역하고, 내용을 작성한 뒤 다시 한글로 재번역하는 과정을 거치는 것 같습니다. 여러모로 어색해서 한글 작성할 때는 엣지에서 제공하는 'Copilot을 이용해서 다시쓰기' 기능은 잘 사용하지 않습니다. 하지만 영어 메일을 쓸 때는 정말 편리합니다. 상당히 고급스러운 표현으로 바꿔주기도 하고, 제가 자신 없어 하는 영어 표현도 교정해주니 매우 유용합니다. 블로그 작성이 습관화되면 영어 블로그도 시도해볼 수 있겠다는 생각이 듭니다.

개인적으로 일상에서 생성 AI를 활용하는 사례 몇 가지를 적어보겠습니다.

  1. 새끼 거북이 키우기

길에서 우연히 새끼 거북이를 주웠습니다. 눈이 오는 날이어서 얼어 죽을까 봐 데려오게 되었는데, 아는 것이 없어서 키우는 방법을 거의 코파일럿에 물어보면서 찾아냈습니다. 일상에서는 주로 모바일 앱으로 사용하는데, Bing 앱에서 코파일럿을 이용합니다. 거북이 종류를 알고 싶어서 거북이 사진을 찍은 다음 무슨 거북이인지 물어봤는데, 반수생 거북이와 육지 거북이가 따로 있다는 것을 처음 알았습니다.

거북이를 데려왔는데 밥을 잘 안 먹길래 거북이 먹이에 대해 물어보고, 거북이가 밥을 잘 안 먹는 이유도 찾아봤더니 거북이가 겨울잠을 잔다고 합니다. 그래서 화분에 올려놨더니 흙 속으로 파고들어가서 3개월은 꼬박 겨울잠을 잤습니다.

거북이가 깨어난 후에는 사료를 주기 시작했는데 꽤 잘 먹습니다. 어느 날 보니 등갑이 말랑말랑해져서 왜 그런지 코파일럿으로 검색해보니 일광욕이 부족하다고 해서 베란다에 거북이 어항을 두고, 돌을 몇 개 깔아두니까 가끔 햇볕이 강할 때 나와서 일광욕하는 모습을 볼 수 있었습니다. 칼슘 부족도 원인일 수 있다고 하니 삼계탕 먹고 남은 물렁뼈를 줬는데 꽤 잘 먹습니다. 먹이를 검색해보면 네이버 블로그에 적힌 자료를 주로 찾아주는데, 벌레도 먹고, 여러 가지를 다 먹는 것 같습니다. 육식 종류면 뭐든 잘 먹는 것 같습니다. 지렁이도 큰 것은 못 먹지만 잘라주면 먹습니다. 복숭아에서 애벌레가 기어 나오면 그것도 먹이로 주는데 엄청 좋아하는 듯합니다.

아무튼 코파일럿 덕분에 거북이 사육 관련 정보를 수월하게 찾을 수 있었습니다.

  1. 가전 제품에 문제가 있을 때

집에서 갑자기 작동하던 가전제품에 문제가 생겼을 때도 코파일럿으로 문제점을 확인해봅니다. 장모님 댁에 갔는데 에어컨에서 갑자기 에러 코드가 나왔습니다. 에러 코드와 에어컨 제품명을 입력하면서 무슨 뜻인지 찾아달라고 하면 정확하게 찾아줍니다. 덕분에 문제 해결도 빠르게 할 수 있었습니다.

  1. 회의 / 강연 들을 때

업무상 회의 참석이나 세미나에 자주 참석하는데, 용어를 이해하지 못하는 경우가 종종 있습니다. 용어 하나를 이해하지 못하면 전체 내용을 따라가기 어려워 집중도가 떨어집니다. 이런 경우에 코파일럿을 사용하면 큰 도움이 됩니다. 사실 찾아보면 별 것 아닌 경우도 많은데, 일반 검색으로 이런 용어를 찾기 어려운 이유는 보통 제가 들은 발음대로 용어를 적었는데 그게 잘못된 경우가 많기 때문입니다.

이런 경우에는 처음에 이렇게 프롬프트를 작성합니다: "내가 OOO이라는 단어를 들었는데 단어를 정확하게 들었는지 잘 모르겠다. 세미나 내용은 이런 내용인데, 내가 들은 단어가 맞는지 찾아줘." 특히 영어 단어 알아듣기가 어려운데, 제가 들은 발음을 대충 한국어로 적고 위 프롬프트에 넣으면서 원래 영어 단어를 찾아달라고 하면 꽤 잘 찾아줍니다.

아무래도 문맥이 제대로 주어져야 작성을 제대로 하기 때문에 세미나 제목이나 최소한 강사가 설명하고 있는 흐름 정도는 문맥으로 제공해야 답변도 꽤 괜찮게 나옵니다. 저와 분야가 전혀 다른 사람과 회의를 할 때도 자주 사용하고, 단어가 파악되면 단어의 의미도 찾아보고, 어떤 식으로 사람들이 용어를 사용하는지도 물어보면 대충 이해가 됩니다.

  1. 프로그래밍할 때

프로그래밍할 때 다른 라이브러리 문서 설명을 읽는 데 시간이 꽤 많이 걸리는데, 특정 라이브러리를 이용해서 제가 하고 싶은 작업을 처리할 수 있는 코드 작성을 요청하면 굳이 문서를 읽지 않아도 됩니다. 오히려 코파일럿을 사용하면서 라이브러리 활용 방법을 수월하게 공부하는 것 같습니다. 일주일 걸릴 일을 몇 시간 만에 끝냈을 때는 정말 신선한 충격이었습니다.

그리고 원래 자주 사용하던 라이브러리는 제가 사용해오던 대로만 코드를 짜기 마련이었는데, 제가 해오던 일도 코파일럿에 물어보면 훨씬 간결하게 코드를 작성해주기도 하고 라이브러리가 업데이트되면서 추가된 새로운 기능을 찾아주기도 합니다. 그래서 같은 일을 하더라도 하던 대로 하지 않고 코파일럿에게 확인해보면서 새로운 기능이나 더 쉽게 할 수 있는 방법이 있는지 한 번 더 생각해보게 됩니다.

  1. 교육할 때

프로그래밍 교육을 원래 꼭 해보고 싶었습니다. 그런데 할 때마다 사람들이 너무 어렵다고 해서 포기해야 하나 싶었는데 생성 AI가 나온 이후에는 교육이 가능해졌습니다. 제가 설명하는 것은 수행하려는 작업의 목표, 목표를 이루기 위해 필요한 단계, 에러 발생했을 때의 에러 메시지 정도입니다.

그리고 너무 오래 설명하면 학생들도 지루해합니다. 그래서 설명은 5분을 넘기지 않으려고 합니다. 짧게 설명하고 바로 코딩해보라고 하면, 처음에는 어리둥절해

Claude’s response was limited as it hit the maximum length allowed at this time.

 

클로드에서 가장 마음에 드는 부분이다. 텍스트를 수정하지 말고 오타를 수정해달라고 하거나 글을 다듬어달라고 하면 정말 텍스트를 거의 있는 그대로 작성한다. 위 텍스트도 읽어보면 거의 그대로 작성했다. 말투만 좀 마음에 안 드는데, 이것도 요구하면 바꿀 수 있다. 다만, 마지막에 글이 작성되다가 끊겼다. 그리고 밑에 에러 메세지가 보인다.

클로드 에러 메세지

 

언어 모델이 입력 / 출력 token 사이즈가 제한되어 있는데, 그것 때문에 작성하다가 멈춘 것으로 보인다. 이전 글이 1000단어가 넘어가는데 챗봇에서 대화를 할 때는 대화 히스토리 전부를 입력하는 것으로 알고 있다. 그러니 내가 처음에 넣었던 프롬프트 부터 그 다음에 나온 답변도 같이 붙여서 input으로 들어가다 보니 token을 꽤 많이 잡아먹어서 output이 작성되다가 말았나 보다. 그런데 내가 알기로 클로드는 token 사이즈가 꽤 큰편이다. 넉넉 잡아 2000단어 정도 넣었다고 해도 원래는 가능해야 될 것 같은데...

 

코파일럿을 통해서 확인한 답변은 이렇다.

[코파일럿] 클로드 문의

역시.. token 사이즈가 꽤 큰데 2000단어도 안되는 내용이 출력이 안된 것은 좀 수상하다.

 

[코파일럿] 의심 확인

무료라서 그런 가보다. 개인적으로 한번에 3-4개 밖에 질문을 안 해서 제한 사항이 문제 된 적도 별로 없고, 1000단어 넘는 텍스트 수정을 요청해본적이 없어서 처음 겪는 일이었다. 보통은 250단어 정도 글 수정을 하니 거의 제한 없이 사용하고 있다. 코파일럿 답변에서 추가로 궁금한 내용이 있으면 밑에 붙어있는 참고자료를 따라가서 확인해보는 편이다. 이번 글 작성하면서는 굳이 다 내용 확인은 하지 않았지만, 가끔 확인해보면 환각이 발생하기도 한다. 글에 붙어있는 참고 자료가 코파일럿 답변이랑 별 상관이 없는 경우도 있고, 참고 자료에 있는 내용을 짜집기하는 바람에 코파일럿이 원문의 의도에서 벗어난 답변을 하는 경우도 있다. 지금은 그냥 확인하고 싶은 내용만 대략적으로 확인했으니 굳이 참고 자료까지 확인하지는 않는다. 좀 틀리면 어떠냐 싶을때는 굳이 확인하지 않는 편...