다르다. 다를거다. 사실 잘 모르겠다. 왜냐하면 아직 AGI는 없기 때문이다. AGI는 Artificial General Intelligence의 약어다. 인공 일반 지능이라고 한다. 정말로 사람같은 인공지능을 통칭하는 표현이라고 생각한다. AGI가 아직 개발되지 못했기 때문에 약간 모호한 개념이라고 본다. 챗GPT가 나온 이후로 AGI에 대한 논의를 더 자주 접하게 된다. AGI랑 AI는 뭐가 다를까?
AI에 대해서 먼저 생각해보자. 최근 활동하고 있는 전문가들 중에 알파고를 기점으로 인공지능을 배우기 시작했다는 분을 적지않게 만날 수 있다. 이세돌 기사를 이긴 알파고. 성능이 굉장히 뛰어나다. 아무리 뛰어나도 알파고는 할 줄 아는게 바둑 밖에 없다. 바둑을 정말 잘하면 되는거 아니냐고? 좀 다르다. 이세돌 기사님 그림 실력은 잘 모르지만 그래도 그림을 그릴 수는 있다. 알파고? 그림 그리는 기능을 전혀 할 수 없다. 왜냐하면 바둑 두는 것만 학습한 AI이기 때문이다. 바둑에 특화된 AI. 반대로 말하면 바둑 말고는 할줄 아는게 없는 AI다. 이제까지 AI는 보통 특정한 작업 (Task)를 잘 수행하도록 훈련이 되었다. 또 다른 예로는 구글 번역기를 들 수 있다. 사실 요즘엔 DeepL을 더 많이 쓰긴 한다. 아무튼 둘 다 AI 기반 번역기다. 둘 다 번역을 잘 한다. 하지만 번역만 한다. 다른 일을 하지는 못한다.
인공지능이 큰 각광을 받았던 것은 이미지 경진대회에서 압도적인 성능으로 딥러닝 알고리즘이 우승하면서부터 라고 본다. 이미지 분류하는 딥러닝 모델을 공부할 때 많이 사용하는 데이터로 MNIST 데이터셋이 있다. 사람이 손으로 적은 숫자 이미지인데, 0~9까지 손글씨로 숫자를 적은 이미지가 있다. 손글씨 이미지를 딥러닝 모델에 넣어주면 그 이미지에 적혀있는 숫자를 맞추는 모델을 훈련해볼 수 있다. 그런데 MNIST 데이터로 훈련된 모델에 'A'라는 글자가 적힌 이미지를 입력하면 어떤 결과가 나올까? 'A'라고 답변을 해줄까? 그렇지 않다. 0~9 사이의 숫자를 찾아준다. 모델을 훈련할 때 답변을 0~9사이에 있는 숫자로만 할 수 있도록 모델이 세팅되어 있기 때문이다. 그래서 기존 인공지능은 모델을 훈련할 때 제공된 답변을 넘어서는 답을 주지는 못했다.
기존에는 AI 모델을 훈련할 때 이렇게 접근했다. 번역을 훈련시키기 위한 데이터를 준비해서 번역을 잘 하도록 훈련한다. 요청에 대해 작문을 잘 할 수 있도록 훈련하기 위한 데이터를 준비하고 주어진 주제로 글을 쓰도록 훈련한다. 장문의 글을 주고 요약을 하도록 훈련한다. 리뷰의 긍정 부정 데이터를 주고 주어진 문장의 긍정/부정을 예측하도록 훈련한다. 모델 별로 각각의 업무만 잘 하도록 훈련을 했던 것이다.
그랬는데 챗GPT는 사실 위 작업을 다 할 수 있다. 번역해달라고 요청하면 번역을 해주고, 작문을 요청하면 작문을 해주고, 요약을 해달라고 하면 요약을 해주고, 주어진 문장이 긍정인지 부정인지 알려달라고 하면 알려준다. 챗GPT는 여러가지 작업을 수행할 수 있는 모델이 된 것이다. 이것이 기존 AI 모델과의 큰 차별점이다. 그리고 정해진 답변만 내놓지도 않는다. 모델의 입력과 출력이 '언어'가 되면서 다양한 유형의 작업을 요구할 수 있게 되었고, 다양한 작업을 수행할 수 있게 된 것이다. 하나의 모델이 특정 작업만 하는 것이 아니라 다양한 작업을 할 수 있다니! 게다가 성능도 뛰어나다니... 챗GPT의 뛰어난 성능과 답변의 유연성으로 인해 굉장한 발전이 이루어졌다. 그리고 이러한 기대 위에 AGI도 곧 등장하리라는 기대감이 같이 부풀어 올랐다.
딥러닝 기술의 발전과 함께 인공지능 모델이 더 다양한 작업을 할 수 있도록 훈련하기 위한 다양한 시도들이 이루어지고 있다. 앞에서 MNIST 데이터를 소개했다. 손글씨를 분류하는 모델이다. 0~9 사이의 값만 제공한다고 했는데, 이미지 모델도 좀 더 다양한 작업을 할 수 있도록 할 수 없을까? Hugging Face에는 이러한 기능을 사용할 수 있는 모델이 있다. deeplearning.ai에서 제공하는 open source models with hugging face라는 강의에 구체적인 소개 방법이 나온다. clip-vit-large-patch14라는 모델은 주어진 이미지와 잘 매칭되는 텍스트를 선택해준다. 기존 이미지 분류 모델들은 데이터에 정의 되어 있는 정답 안에서만 답변을 골라서 주는 형태였는데, 이 모델은 이미지와 문장을 비교함으로써 주어진 문장 중 이미지에 가장 부합하는 문장을 골라준다. 이렇게 함으로써 모델이 좀 더 다양한 답변을 채택할 수 있게 되었다. 상당한 발전이지만 여전히 모델의 작업 능력이 부족해보인다고 생각하는 사람도 있을 것이다.
OpenAI 웹사이트에서 챗GPT를 사용하는 상황을 생각해보자. 챗GPT는 글은 잘 쓰지만, 그림은 그리지 못한다. 음? 챗GPT 사용해보니까 그림 그려주던데요? 그려달라고 하면 그려준다. 그런데 이미지는 달리 (DALL-E)라는 모델이 그려주는 거다. 나는 챗GPT한테 그려달라고 했는데? 챗GPT한테 그림을 그려달라고 하면, 달리라는 모델을 데려와서 그림을 생성하도록 작업한다. 나는 챗GPT한테 요청했고, 챗GPT는 그 요청을 달리한테 전달해서 그림을 그리게 만든 후, 생성된 이미지 파일을 보여주는 것이다. 그래서 챗GPT는 글만 쓰는 모델이 맞지만, 챗GPT가 다른 AI 모델과 함께 일하면서 다양한 결과물을 제공하게 된다. 이렇게 AI 모델이 다른 AI 모델을 도구로 사용하거나 아니면 서로 대화를 하면서 일을 처리하기도 한다. 모델 혼자 일을 하는 것이 아니라 여러 AI가 팀을 이루어서 일을 하는 형태다. 이렇게 하면 좀 더 다양한 작업을 할 수 있게 된다. 상당한 발전이긴 하지만 여전히 개별 AI 모델들이 할 수 있는 작업은 제한적이다.
AGI가 등장한다면 아마도 단일 모델이 사람과 같은 수준으로 다양한 작업을 제한 없이 하게 될 가능성이 높다. 이러한 방향으로 하는 연구 중 하나는 멀티모달 (Multimodal) 기능이라고 생각한다. 서로 다른 유형의 정보의 입출력이 가능해진 모델을 멀티모달 모델이라고 한다. 그래서 음성, 텍스트, 이미지, 비디오 등 다양한 형식의 정보를 받아서 분석을 하고 답변을 해줄 수 있는 모델. 입력만 다양하게 받는 것이 아니라 출력도 마찬가지로 텍스트, 이미지, 음성, 비디오 등 다양한 형식으로 표현하게 되는 멀티모달 모델. 이러한 모델은 AI 모델이 할 수 있는 작업의 반경을 훨씬 크게 넓혀줄 수 있다. 테슬라에서 개발한 옵티머스는 물리적인 환경에서 동작하는 AI 모델이라고 볼 수 있다. AI 모델의 작업 반경을 넓히고, 옵티머스처럼 물리적인 세계에서 상호작용하는 기능이 개선이 된다면 AGI에 더 근접하게 될 것이라는 생각이 든다.
AGI가 뭔지는 아직 잘 모르겠다. 그치만 챗GPT의 작업 유연성이 AGI의 논의를 불러온 계기라고 생각한다. 기존의 AI 모델과 AGI의 가장 큰 차이는 모델 혼자서 해낼 수 있는 작업의 반경이라고 본다. 나는 거의 특정 작업을 잘 하도록 모델을 훈련하는 일을 해왔기 때문에 이 부분이 가장 큰 차이라고 느껴진다.
'생성AI' 카테고리의 다른 글
스타트업과 투자자들이 반드시 사용해야 하는 AI 서비스 TOP5 (2) | 2024.11.26 |
---|---|
신입도 단번에 이해시키는 AI 활용 업무 분담 (2 step으로 충분해요) (0) | 2024.10.08 |
인공지능도 사투리를 알아들을까? (3) | 2024.10.01 |
비디오 생성 AI를 사용해보고 나서... (5) | 2024.09.30 |
AI가 알려준 의약품 폐기 방법 (0) | 2024.09.20 |