본문 바로가기
생성AI

비디오 생성 AI를 사용해보고 나서...

by Good.PhD 2024. 9. 30.

이미지 생성 모델은 자주 사용하는 편이지만, 영상은 만들 일이 없어서 거의 사용하지는 않았다. 예전에 한번 사용했을 때 그렇게 성능이 좋지 않기도 했다. OpenAI에서 SORA를 공개하면서 큰 기대를 모으기도 했고, 최근에는 얼마나 바뀌었을지 궁금해서 한번 테스트를 해보기로 했다. 밑에서 생성된 영상 퀄리티를 보면 알 수 있겠지만, 영상 생성은 아직 갈 길이 먼것 같다. 사실상 가장 마지막에 소개하는 영상 편집 툴이 가장 쓸모 있는 것 같다. 

테스트를 하려니 뭘 만들어야 될지 몰라서 고민하느라 시간을 많이 보냈다. 관심없는 일 하는 걸 상당히 어려워하는 편이다. 그래도 동영상 만드는 것도 소개했으면 좋겠다는 의견이 있어서 사용가능한 툴을 소개할 겸 간단하게 글을 작성해보게 되었다. 머리를 쥐어짜낸 끝에 구두 닦는 모습을 생성해보기로 했다. 예전에 구두를 닦으러 간 적이 있었는데, 구두 닦아주시는 사장님께서 해준 말이 갑자기 기억이 나서 만들어보기로 했다. 그때 사장님이 '구두를 닦더라도 자기 사업을 해야 된다'는 이야기를 해주셨는데, 그게 왠지 기억에 남는다. 그리고 요즘에 구두 닦는 곳 찾기가 쉽지 않다는 생각도 들었다. 그냥 집에서 닦는 것 보다 훨씬 깔끔하게 정리해주시고 수선도 해주시는게 좋았었는데, 요즘에는 주변에서 구두 닦는 곳 만나기가 어렵다. 갑자기 옛날 생각도 나고 해서 추억을 되살려 구두 닦는 영상을 만들어 보려고 했다. (영상을 만들고 나서 든 생각이었는데, 그렇게 좋은 아이디어는 아니었던 것 같다. 이유는 밑에서 영상을 보면 알 수 있을 것 같다.)

 

생성 AI를 쓸만한지는 활용하는 방법에 따라 다른 것 같다. 그런데 종종 생성AI가 나오면서 디자이너나 영상편집자들 대체한다는 이야기가 나오는데, 지금 수준에서는 그런 내용에는 조금 동의하기 어렵다. 왜냐하면 쓸만한 퀄리티의 결과물은 아직 아니라는 생각이 들기 때문이다. 얼마전에 AI프렌즈에서 수요일 오프라인 모임이 있었는데 거기서 웹툰 작가님 이야기를 들으면서 말씀해주신 내용에 동의가 되었는데, 생성AI로 웹툰을 만든다고 하는 서비스들이 많지만 전문가가 볼 때 쓸만한 툴이 아직 없다는 이야기를 했었다. 생성AI를 사용하면 빠르게 웹툰을 만들어 낼 수 있다고 하지만, 웹툰을 빠르게 많이 만들어내는 것은 사실상 큰 의미가 없기 때문이다. 소비자들이 원하는, 시장의 요구를 만족할만한 웹툰을 만드는 것은 단순히 양을 늘린다고해서 되는 것은 아니라는 의미다. 현재 수준에서 가장 의미있게 사용하는 방법은 아무래도 아이디어 정리 수준인 것 같다. 간단한 콘티 (하지만 비전문가가 만들어낸 것 보다는 좀 더 퀄리티가 높아진 이미지) 정도에 사용하면 좋은 은 것 같고, 내가 생각한 캐릭터가 콘텐츠에서 그러한 느낌을 잘 살릴 수 있는지 한번 테스트 해보는 정도가 괜찮은 것 같다. (예를 들면, 특정 배우가 해당 역할을 한다고 했을 때 의상을 입혀보면 어떤 느낌일지 확인하는 정도. 물론 몇몇 AI 툴은 특정 인물의 이미지 생성을 거부한다. 그러면 배우의 외형을 좀 더 자세하게 설명하는 식으로 바꾸고 그 묘사된 인물이 의상을 입었을 때의 느낌을 만들어볼 수 있을 것 같다.)

 

결과물이 별로 마음에 안 들어서 서론이 길어졌다. 사용해 본 툴은 5가지 정도로 확인했다. 예전에는 많이 있는지도 몰랐는데, 유튜브에도 검색해보고 하니 여러가지 툴을 추천을 해준다. 예전에는 Runway와 pika labs 2개 정도 사용해봤었는데, 그새 서비스가 늘어난 것 같다. 일단 영상을 만드는데, 영상 별로 생성 시간이 너무 오래 걸려서 여러가지를 테스트 해보지는 못했다. 그리고 생성으로 만들어지는 영상은 길이가 짧다. 5~10초 혹은 그것보다도 짧다. 그래서 여러가지 영상을 만들어서 편집할 때 연결하는 식으로 만들어야 좀 더 긴 길이의 영상을 만들어 낼 수 있을 것 같다.

 

영상 프롬프트는 클로드에서 영어로 만들어 봤다. 프롬프트를 원하는 만큼 길게 넣을 수 있는 툴도 있고 그렇지 않은 툴도 있어서 긴 버전과 요약된 버전 2가지를 테스트 해봤다. 평소에 왠만하면 영어로 프롬프트를 넣는 편이다. 그래서 영상도 영어로 프롬프트를 작성해서 만들었다.

 

긴 버전 프롬프트: Generate a video of a cheerful shoeblack polishing shoes. The scene takes place on a busy city street corner during daytime. In the foreground, a middle-aged shoeblack with a warm, genuine smile is kneeling beside a customer seated on a raised chair. The shoeblack is wearing simple, slightly worn work clothes and is enthusiastically polishing a pair of leather shoes. The customer's face is not visible, focusing attention on the shoeblack's positive demeanor. In the background, pedestrians walk by, and there are hints of storefronts and street signs to establish the urban setting. The lighting should be bright and optimistic, reflecting the shoeblack's encouraging attitude. As the video progresses, show the shoeblack's hands working skillfully, the shoes gradually becoming shinier, and the shoeblack's smile remaining constant, conveying pride in their work.

 

짧은 버전 프롬프트: Cheerful shoeblack polishing shoes on busy city street. Daytime. Shoeblack kneels by seated customer, wearing simple clothes, big smile. Focus on shoeblack's hands working, shoes getting shinier. Urban background with pedestrians. Bright, optimistic lighting.

 

1. https://haiper.ai/

 

Haiper - AI Video Generator

 

haiper.ai

이 툴은 유튜브에서 사용할 수 있는 툴이 어떤 것들이 있는지 검색해보다가 알게 되었다. 무료로 영상 생성이 가능해서 여러개를 만들어 보고 싶었는데, 하나 만들고 거의 30분은 기다렸던 것 같다. Text to Video 옵션을 사용했는데, image to video 등 여러가지 기능이 좀 더 있는 것 같다. 긴 버전 프롬프트를 입력을 해서 영상 생성을 했다.

영상 생성 결과 확인

 

영상을 생성시키면 아래와 같이 Create 탭에 영상이 생성 중이라는 표시가 나온다. 여기서 진행 상황도 보여주고, 진행이 다 되고 나면 위 사진과 같이 생성된 영상을 보여준다. 다운을 받을 수도 있다. 사실 이렇게 이미지만 보면 괜찮아 보이긴 하지만, 인물들의 팔을 보면 약간 어색한 모습이 보인다. 다운 받은 영상이다. 배경 음악은 기본적으로 생성이 안된다.

생성된 영상

 

영상을 보면 알 수 있듯이, 굉장히 부자연스러운 팔의 움직임이 보인다. 그래서 좀 기괴하다. 단순히 텍스트만 가지고 영상을 만드는 것은 아무래도 어려움이 있는 것 같고, 이미지를 기반으로 영상을 만드는게 훨씬 낫겠다는 생각이 들었다. 이미지를 바탕으로 3초 정도 간단하게 움직이는 영상을 만들고, 그렇게 영상들을 연결해서 만들면 좀 더 나을 것 같다.

그리고 첫번째 결과를 보고나서 가장 별로라는 생각이 들었던 부분은 손의 움직임인데, 이미지 생성 모델도 얼굴이나 손을 잘 못 만드는 경향이 있다. (글씨도 잘 못쓰는 문제도 있다) 여기서도 보면 손의 움직임이 제일 기괴한 것을 알 수 있다. (영상을 보면서 기생수가 생각났다....)

 

2. https://klingai.com/

 

KLING AI

 

klingai.com

이 툴도 유튜브에서 찾아냈다. 중국에서 만든 툴이라고 한다. 인공지능 논문 저자들 중에 상당수가 중국인인 것을 볼 수 있다. 인공지능 분야에서 중국의 발전이 무시무시하다는 생각이 든다. 이 툴에서는 결과를 확인하고 싶었는데, 확인할 수가 없었다. 글을 쓰는 시점에서 영상 생성을 요청한뒤 한시간 반이 지났는데 여전히 결과물이 확인이 안되는 문제가 있었다.

 

KLING AI

 

프롬프트는 긴 버전으로 입력을 했다. 영상 생성 진행 상황은 %로 표시되었는데, 100%를 달성한 후에 위와 같은 스크린이 나오면서 더 이상 진행이 안된다. 그래서 결과물은 공개가 불가능.. 비디오도 결국엔 이미지로 볼 수 있는데, 이미지 하나 만드는데도 시간이 걸리는데, 여러 프레임을 만들어서 영상으로 전환하려니 훨씬 오래걸리겠다는 생각은 든다. 그래도 1시간 반은 좀... 이 툴도 이미지 기반 영상 생성 기능을 제공해준다.

 

3. https://runwayml.com/

 

Runway | Tools for human imagination.

Runway is an applied AI research company shaping the next era of art, entertainment and human creativity.

runwayml.com

이 툴이 가장 처음에 사용해봤던 툴이다. 최근 Gen-3가 나왔다고 해서 써보고 싶었는데, 테스트를 하는 시점에서는 무료 사용자는 Gen-3를 사용할 수 없다는 메세지가 나왔다. 요즘 사용량이 많아서 차단을 했다고 한다. 어쩔 수 없이 무료 버전 Gen-2만 사용해봤는데, 역시 퀄리티는 상당히 별로다. 특히 여기서 생성한 영상에서는 어떻게 손과 얼굴이 뭉개지는지를 천천히 관찰할 수 있다... Runway에서는 프롬프트와 이미지를 같이 올리게 되어 있었다. 그래서 이미지는 DALL-E를 이용해서 만들었고, 프롬프트는 320자 까지 입력 가능해서 요약 버전의 짧은 프롬프트를 사용했다.

RUNWAY GEN2

 

GEN-3가 성능이 나쁘지 않은 것처럼 광고를 해서 한번 테스트 해보고 싶었는데, 애초에 사용이 불가능해서 아쉽다. 기회되면 한번 테스트를 다시 해봐야 할 것 같다. 

 

4. https://www.imagine.art/

 

Free AI Art Generator: Create AI Images with Text to Art

Create AI Art and turn your imaginations into reality with Imagine’s AI Art Generator and produce stunning visuals to cover up your artistic thoughts.

www.imagine.art

원래 pika labs는 discord에서 사용을 했었다. 그런데 discord로 툴을 사용하는게 어색하기도 하고 해서 잘 사용하지 않게 된다. 그래서 웹에 구현한 툴들도 여러가지 나오는 것 같은데, 한번 확인차 검색을 해봤더니 pika labs에 해당하는 결과가 2개나 나왔다. 그래서 어떤게 진짜 pika labs 서비스인지는 잘 모르겠다. 일단 둘 다 사용해봤다. 여기서는 텍스트만 이용해서 영상을 만들어낸다.

 

imagine.art 영상

 

여기에서는 손도 바뀌지만 구두도 계속 바뀐다. 아이언맨 나노슈트 수준으로 구두가 변신을 하는데, 이미지 별로 생성된 구두의 이미지가 전부 달랐나보다. 생성AI로 이미지를 만들었을 때 콘텐츠에 사용하기 어려운 이유 중 하나는 캐릭터를 유지하기 힘들다는 부분이다. 동일한 외형에 동일한 의복을 입은 상태로 다른 포즈와 다른 배경 속에 있는 모습을 콘텐츠 내에서 보여줘야 하는데, 생성AI가 생성할 때 마다 동일하지 않은 결과물을 계속 내놓다 보니 콘텐츠로 사용하기에 어려움이 생긴다. 예를들어 생성된 캐릭터의 뒷모습을 그려보려고 하면, 전혀 다른 캐릭터의 뒷모습을 만들어내는 식이다. 비슷한 문제가 이 영상에서도 확인된다.

 

5. https://pika.art/

 

Pika

The idea-to-video platform that sets your creativity in motion.

pika.art

pika labs로 검색해서 나온 툴 중 하나. pika labs 아이콘과 동일해서 여기가 진짜 pika labs 인가 생각이 들었다. 영상 퀄리티는 대동소이하다. 이미지와 텍스트를 넣고 생성을 했다.

 

pikalabs 영상

 

디스코드(Discord)라는 프로그램은 인공지능 관련해서 알아보다가 처음 알게 되었다. 이미지 생성AI 서비스 중에서 상당히 고퀄리티인 미드저니(https://www.midjourney.com/)도 처음에는 디스코드에서만 사용할 수 있었다. 나중에 웹서비스로 출시된 형태다.

6. https://discord.com/

 

Discord - Group Chat That’s All Fun & Games

Discord is great for playing games and chilling with friends, or even building a worldwide community. Customize your own space to talk, play, and hang out.

discord.com

 

다양한 인공지능 서비스들도 여기에서 운영이 되는데, pika labs 같은 경우 아래와 같이 사용방법이 적혀있다. 하단에 있는 채팅창에 명령어 같은 것을 입력하면 되는데, 아래와 같은 형식으로 입력하라고 적혀있다.

/create prompt: (영상에 대한 설명) + 기타 옵션

디스코드 pika labs

 

화면 왼쪽에 보면 여러 메뉴가 있다. 이 중에서 #generate-1~10 으로 이동해서 명령어를 입력해야 영상이 생성된다고 한다. 왼쪽에 있는 메뉴에서 하단으로 내려가보면 generate 채널을 볼 수가 있다.

pika LABS #generate-1

 

여기서 /만 입력해도 어떤 명령어들을 사용할 수 있는지 보여준다. 그래서 명령어대로 프롬프트를 입력을 하면 영상 생성이 진행중이라고 알려준다. 그런데 디스코드에서 나 혼자 영상을 생성하는것이 아니고 채널에서 다양한 사람들이 계속 영상을 만들어내고 있다. 그러다보니 내가 입력한 요청은 시간이 지나면 다른 사람들이 올린 요청 때문에 위로 밀려 올라가면서 파묻히게 된다. 그래서 내가 만든 영상을 다시 찾기 위해서 검색을 해야 하는데, 오른쪽 상단에 보면 검색창이 있다. 여기에 내 아이디를 입력하면 내가 기존에 요청했던 영상을 여기서 검색해서 확인할 수 있다. 위 이미지에서는 예전에 만들었던 강아지 산책 영상이 검색되는 것을 볼 수 있다.

여기에서도 동일한 프롬프트로 구두 닦는 아저씨 영상을 만들어달라고 요청했는데, 꽤 걸리는건지,, 아직까지는 만들어진 영상이 확인이 안된다. 디스코드에서 사용해볼 수 있는 인공지능 서비스가 꽤 많기 때문에 디스코드는 한번 써보면 좋을 것 같다.

 

7. 영상 편집용 AI 툴

영상 생성AI는 퀄리티가 대부분 별로여서 좀 아쉬운데, 요즘 이미지 생성AI는 퀄리티가 좋기 때문에 이미지만 잘 만들어서 영상 내에서 연결하는 것도 방법이 될 수 있다. AI 기반 영상 편집툴이 있는데 사용도 편하고 꽤 성능이 좋았다.

https://vrew.ai/ko/

 

Vrew, 문서 편집처럼 쉽고 빠른 AI 영상 편집

AI를 활용한 가장 빠르고 효율적인 영상 편집을 경험해보세요! 키워드만 입력하면 끝! AI가 자동으로 영상을 만들어 드립니다. 음성 인식 자동 자막, 빠른 컷 편집, 200종 이상의 AI 목소리, 다양한

vrew.ai

이 툴은 다운받아서 사용하게 되어 있다. 영상을 입력하면 영상에서 음성을 인식해서, 텍스트로 변환을 한다. 그리고 텍스트를 기준으로 영상을 편집할 수 있게 되어 있다. 프로그램을 실행하면 바로 영상 편집 사용 방법 소개 영상이 보인다.

VREW

 

그래서 이 영상만 참고해봐도 금방 사용 방법을 익힐 수 있다. vrew를 사용할 때 영상을 업로드하고 나서 텍스트를 인식하는데 시간이 가장 오래 걸렸던 것 같고, 텍스트 인식만 잘 되면 쉽게 편집할 수 있다. 예전에 스페인어로 강의를 녹음하고 나서 vrew에서 편집을 해보려고 했는데, 스페인어는 인식을 잘 못했던 것 같다. 아니면 녹음된 내 스페인어 발음이 문제일 수도 있다.. 아무튼 언어 별로 성능 편차가 있을 수는 있다. 영상에 자막 넣기, 배경음악 넣기 등 다양한 기능이 제공되고, 상업적으로 이용가능한 배경음악을 넣어두었다고 하니 활용해보면 좋을 것 같다.

 

빈말은 못 하는 성격이라 거의 비판적인 내용이 많긴 하지만,, 이미지 생성 AI 도 초반에 퀄리티가 안 좋았다가 향후 크게 발전한 것처럼 영상 생성도 나중에는 쓸만한 퀄리티로 올라오는 날이 있지 않을까 싶다.