본문 바로가기
생성AI

2025년에 다시 읽어보는 'AI 전쟁' (1~2장)

by Good.PhD 2025. 7. 30.

현 인공지능 수석인 하정우 박사님의 AI 발전에 대한 생각을 알 수 있는 책. 2023년에 책이 출간되었고, 2년이 흐른 시점에서 책을 다시 읽어보면서 AI 발전이 빠르다는 것을 새삼 느낄 수 있었음. 정리하다 보니 길어져서 일단 1장, 2장에서 기억에 남는 내용 위주로 정리. (1장: 거부할 수 없는 지적 혁명의 시작. 인공지능 시대는 거스를 수 없는 혁명. / 2장: 초거대 인공지능 대유행. 인공지능에 대한 역사와 향후 전망을 논의)

 

1. 네이버의 서비스인 클로바노트를 이용해서 대화를 녹취하고 원고를 작성했다고 함. 클로바노트를 처음 접했을 때 굉장히 혁신적인 서비스라고 생각. 실제 사용해보면 발음을 제대로 못 알아듣는 경우도 많이 발생함. 2년 동안 AI 기술이 많이 발전하면서 혁신적인 서비스들이 많이 출시됨. Google NotebookLM이 꽤 놀라운 기능을 탑재하고 있는데, 사용자가 업로드한 자료를 바탕으로 짧은 팟캐스트 영상을 만들어준다. 그리고 팟캐스트 영상을 듣다가 질문이 생기면 중간에 질문을 할 수 있다. 그러면 즉흥적인 질문에 대한 답변도 나온다. (현재 시점 영어 한정 interactive mode가 가능)

 

2. 책에서는 인공지능 발전의 역사를 정리하고 있음. 해당 내용은 시간이 흐름 지금 읽어봐도 도움이 많이 되는 내용.1950~60년대의 인공지능 분야 초기 연구 부터 딥러닝의 발전까지 전체적인 동향을 쉽게 정리해주고 있음.

 

3. AGI(일반인공지능 혹은 인공일반지능)에 대한 논의가 나오는데, 이때도 AGI에 대한 정의가 모호한 것을 알 수 있음. AGI에 대한 논의는 아직도 모호함. 이미 AGI에 도달했다고 말하는 사람도 있고, 그렇지 않다고 말하는 사람도 있음. 책에서는 AGI라고 하려면 스스로 문제를 설정할 수 있는 능력이 있어야 한다고 봄. AI 레벨을 1~5로 나누고, 레벨 5를 AGI로 정의하는데, GPT-4가 나온 시점에서의 파운데션 모델은 레벨 2-3정도로 평가하고 있음.

 

4. AI의 문제로 에너지 효율성을 언급하고 있음. 에너지 이슈도 현재 여전히 있는 문제. 현재 에너지 사용 대비 AI의 가치가 합리적인 수준인지에 대해서는 지금도 논란이 있다고 생각됨. 

 

5. AI가 성공적으로 작동할 수 있는 분야로 법률, 의료, 교육을 언급하고 있음. 금융에서는 숫자 계산이 많이 들어가는데 해당 부분은 좀 어려울 것으로 전망 (실제로 숫자 계산이나 단순 숫자 비교에 대한 질문에 오답을 하는 할루시네이션이 많기는 하다. 상당부분 개선되긴 했지만...) 컨설팅 쪽은 AI가 잘 할수 있을 것으로 보임. 즉 지식 산업에 가까운 분야에서는 AI가 상당한 파급력을 빠르게 나타낼 것으로 예상. 하드웨어가 중요한 분야는 조금 더 시간이 필요할 것으로 보임 (최근 로봇의 발전을 보면 생각보다 하드웨어 분야도 빠르게 파급력이 나타날 수 있을 것으로 보이기는 하는데... 좀 더 두고봐야 알 듯)

 

6. 생성AI의 발전 역사도 짚어주고 있음. 이미지 분야에서 빠르게 발전했던 생성 AI 모델들을 소개하고 있음. 확산모델도 간략하게 언급이 있는데 현재 확산모델이 이미지 생성 외에도 다양한 분야에서 좋은 성능을 보이고 있음 (예: 알파폴드3) 책에서는 생성AI의 발전에서 파운데이션 모델로 논의가 옮겨가고 있는데, 하나의 모델이 다양한 작업에 사용되는 방식으로 변화함. 이미지 분야에서 생성AI가 먼저 좋은 성능을 보였고 그 이후에 자연어 처리 분야로 넘어오게 됨. 사전학습과 파인튜닝이 활용되면서 모델 학습의 패러다임도 크게 변화함.

이미지 자동생성 서비스로 라스코가 언급이 되는데, 현재 라스코 서비스는 종료된 상태다. 이미지 생성 분야의 발전을 따라가지 못해서 없어진 것으로 생각된다. (실제로 서비스가 살아있는 동안 종종 사용했는데, 이미지 퀄리티가 다른 서비스에 비해 아쉬웠음)

 

7. 이미지 생성 AI 모델에서 발생하는 편향 문제에 대한 언급이 있음. 길거리에서 선글라스 쓴 멋진 여성을 그려달라고 하면 백인 여성이 나오고, 길거리에서 음식을 팔고 있는 사람은 유색인종으로 생성되는 것이 한 예. 프롬프트로 해결은 가능하지만, 기본적으로 데이터에 있는 편향이 반영된 것으로 생각됨. 이런 지점에서 소버린AI가 중요성을 가짐. 데이터에는 기본적으로 문화, 역사적인 차이가 담겨있는데 우리만의 고유한 문화성을 잘 살려낸 모델의 개발이 중요.

 

8. 언어모델에서 발전이 빠른 이유는 텍스트 데이터가 가장 구하기 수월하기 때문. 그리고 언어 특성상 응용 분야가 굉장히 많은데 현재 언급되고 있는 에이전트 시스템도 결국에는 프롬프트를 전달하면서 모델이 특정 작업을 하도록 만드는 것. 많은 데이터가 언어로 저장되어 있기 때문에 언어 모델의 파급력이 강력하다고 생각됨.

 

9. 구글과 마이크로소프트의 대결에 대한 언급이 있는데 이때 PaLM2와 BARD를 언급하고 있다. 현재는 둘 다 서비스가 종료되고 제미나이(gemini)로 대체되었음. 바드가 생각보다 성능이 좋지 않아서 구글이 위기의식을 느낀다고 생각되었는데 꾸준히 발전하는 모습이 있어서 주변에서 챗GPT 사용하다가 gemini로 갈아타는 경우도 많이 보게 됨. 실제로 gemini에서 보고서 생성, 인포그래픽 생성 기능이 있는데 꽤 강력함. 구글 앱과 연동해서 파일을 만들어주기도 함.

마이크로소프트가 빙에 GPT4를 탑재한 서비스는 현재 코파일럿이 되었음. 그런데 코파일럿 성능이 영 별로여서 잘 사용하지 않게 됨. 업데이트 되기 전이 더 기능도 유용하고 사용이 편리했다고 생각함.

 

10. 환각 현상은 모델이 작성한 내용이 팩트라는 것을 평가하도록 학습한 적이 없기 때문에 발생하는 현상이라고 봄. 개인적으로 환각을 유도하기 위해 실험을 해본 적이 있는데, 한국 역사에 대한 내용은 쉽게 환각이 발생하지만 말라리아에 대한 질문에서는 환각이 발생하지 않음. 내가 아무리 우겨도 끝까지 내가 틀렸다고 함. (실제로 일부러 잘못된 내용을 입력하긴 했음) 그래서 사전 학습 과정에서 충분한 데이터가 있는 경우에는 환각을 잘 막아내기도 하지만, 희소한 데이터에 대해서는 여전히 환각 문제가 있음. 책에서는 RLHF (강화학습)을 바탕으로 한 답변 방안을 소개함. 책에는 없지만 RAG도 환각을 막기 위한 중요한 기법이라고 생각됨.

 

11. CoT (chain of thought) 생각의 사슬에 대한 언급이 있음. deepseek-r1 모델이 reasoning을 통해 충격을 줬었는데, 이렇게 단계별로 생각하는 접근법에 대한 소개가 있음. 언어 모델을 확률적 앵무새로 비하하는 사람도 있었지만, CoT는 과정과 단계에 대한 이해를 바탕으로 진행되는 것이기 때문에 LLM을 확률적 앵무새로 치부하기엔 어렵다고 봄. 언어 모델에서 창발적인 능력이 어떻게 발생하는 것인지 밝혀내는 것을 중요 과제로 언급.

 

12. 인공지능의 안정성을 우려해서 연구 중단에 대한 사건을 언급. 인공지능 연구자들 중에서도 잠깐 멈추는 것에 찬성하는 쪽과 반대하는 쪽으로 나뉨. 연구개발과 안전 점검은 둘로 나누는게 맞다는 견해를 밝힘. 기업이 둘 다 하기에는 어려움.