자, 여러분, 올 것이 왔습니다. 소라.

지난주 가장 놀라운 소식, 오픈 AI의 Sora 발표였죠. Text to Video. 우리가 달리, 미드저니같이 프롬프트로 이미지를 생성했던 것처럼, 상황을 입력하면 비디오를 만들어주는 툴이 등장했습니다.

사실 이게 처음은 아니에요. 원래 Runway, Pika 이런 T2V 툴들이 이미 있었습니다. 그런데 이 두 툴들은 주로 SF 같은 영상들을 많이 만들었거든요. 이유는 이런 겁니다. SF면 객체가 아주 정확하지 않고 막 이상해도 납득이 되잖아요. 어차피 공상이니까요. 그런데, 소라는 그냥 영화 그 자체입니다. 저 피부 표현 보세요. 소름 끼칩니다.

자, 이런 풍경도 가능하고요. 애니메이션, 다큐멘터리 다 됩니다. 심지어 역사물도 되는 걸 볼 수 있죠. 골드러시 당시의 캘리포니아를 재현한 영상입니다.

물론 SF스러운, 상상의 영역에 있는 영상도 제작이 가능합니다. 내부에 정원이 있는 유리구슬, 해적선 두 척이 커피잔 안에서 싸우고 있는 클로즈업 비디오, 가상의 전시회 하여튼 뭐 다 되는 걸 알 수 있죠.

특히 이 두 영상이 아주 빅히트를 기록했는데요. 벚꽃이 가득한 도쿄의 거리, 정말 진짜같죠. 드론이 날아가면서 찍는 스타일 그대롭니다. 그런데 벚꽃 옆을 보면 지붕에 눈이 덮여 있어요. 이게 진짜가 아니라는 소립니다.

자 이 영상은 우주비행사를 그린 장면인데요. 실제로 찍은 것 같은 느낌이 드는데, 우주인이 뜨개질 모자를 쓰고 있어요. 귀엽지만 이상하죠.

특히 이 영상은 완성도가 너무 지나쳐서 놀랍습니다. 실제로 레트리버들을 찍은 것 같죠. 단점을 찾기가 더욱 어렵습니다.

입력한 프롬프트를 살펴보면 아주 짧아요. 만약 길게, 정밀하게 입력하면 의도에 더욱 맞는 영상이 나오게 되겠죠. 현재 짧은 프롬프트 만으로도 2K 화질의 1분 분량 영상을 만들 수 있다고 합니다.

자, 그러면 이런 영상 제작이 어떻게 가능했냐. 제가 달리가 처음 나왔을 때, 그다음은 영상이 될 것이라고 말씀드렸죠. 이미지를 초당 24개 정도 붙이면 영화 수준의 동영상이 됩니다.

이전에도 스테이블 디퓨전 확장 기능 같은 데서 이런 영상이 있었어요. 이런 영상들의 문제는 영상 같기는 한데 각 프레임이 제각기 움직인다는 거였죠. 그런데 오픈 AI가 드디어, 각 프레임 사이의 연관관계를 명확하게 정의하는 T2V를 내놓은 겁니다.

학습 방식은 확산 공정, Stable Diffusion이고요. 우리가 이미지를 학습할 때 점점 저화질로 만들어서 학습하고, 저화질 이미지를 고화질로 올리면서 학습하게 했던 그것과 똑같은 공정입니다. 그런데 영상은 이미지와 이미지 사이의 관계성도 생각해야 하잖아요. 그걸 아주 완벽하게 학습을 한 겁니다. 대단하죠.

영상인 만큼 학습 방법에는 오픈 AI가 가진 모든 방법이 다 사용됐습니다. 우선 LLM에서 텍스트 토큰처럼 소라에는 이미지 패치가 있고요. 비디오를 패치로 바꾼 다음에 반대로 학습하는 겁니다. 학습은 적대적 생성 네트워크, 언어 모델링, 비전 AI, 이미지 생성을 다 씁니다. 그리고 이 과정을 수도 없이 반복해서 괴물이 아닌 영상을 만들어내는 거죠. 자, 괴물이 점점 시바견으로 변하는 거 보이시죠.

이렇게 영상을 만드는 것만 할 수 있는 게 아니라 이미지로 영상을 만들거나, 두 영상을 이질감 없이 붙이거나, 영상 내에서 두 장면을 붙이거나 뭐 이런 여러 방법이 가능합니다. 그야말로 생성 영상계의 끝판왕이 와버렸다-이렇게 말씀드리겠습니다.

물론 소라는 아직 완벽하지 않습니다. 오픈 AI도 블로그에서 복잡한 장면의 물리학을 정확하게 구현하는 데 문제가 있다고 밝히고 있고요. 이 영상을 보시면 트레드밀과 사람은 인식했는데, 사람과 트레드밀이 반대로 움직이고 있죠. 그 결과 슬릭백하는 사람이 나와 버렸습니다. 그리고 트레드밀은 차처럼 계속 움직이고 있습니다.

이 친구는 달마시안이죠. 그런데 고양이처럼 움직입니다. 상상을 깼다고 볼 수도 있지만 오류라고 볼 수도 있겠죠.

자 이 영상에서는 케로베로스가 탄생하고 있죠. 그다음에 이 강아지들이 감수분열을 하고 있습니다. AI 그림의 문제점 그대로죠. 그리고 이 영상에서는 농구공이 폭발합니다.

자, 이런 문제와 더불어서 여러 문제가 있기 때문에 Sora는 아직 대중 상대로는 서비스를 하고 있지 않습니다. 오픈 AI 내에서도 레드팀이라고 부르는 문제 대응팀만이 이 서비스를 사용하고 있고요. 윤리적 문제나 기술적 문제를 어느 정도 가다듬은 후에 출시할 것이라고 합니다. 폭력적인 것, 저작권 문제, 선정적인 것 이런 것도 다 거르고 있다고 하고요. 야동이나 디즈니 패러디, 범죄물 이런 건 못 만든다는 소립니다. 이게 다 해결되고 나야 우리가 쓸 수 있겠죠.
그런데 지금 Sora를 쓸 수 있는 딱 한가지 방법이 있어요. 오픈 AI CEO인 샘 알트먼의 X에 “샘, 이것 좀 그려줘요”라고 답글을 다는 겁니다. 알트만이 가끔씩 실제로 그려주고 있고요. 챗GPT 만드는 회산데 자기가 직접 대답하고 있네요.

자, 소라가 실제로 출시되는 날, 지구에서는 몇십억명의 영화감독, 광고 감독이 데뷔하게 될 겁니다. 그런데 이게 영상 서비스기 때문에 무성영화 정도로만 생각할 수 있을 거고요. 그다음은 뭘까요? Sora에서 배경음악, 음성 등을 합성하는 통합 패키지 서비스가 나오겠죠. 그다음은, 3D 애니메이션이 아닐까 싶습니다. 상상의 한계를 완벽하게 부숴버리는 거죠.

오픈 AI는 소라 출시 이후, C2PA 데이터까지 공개한다고 발표했습니다. 지금 챗GPT 개인용 챗봇을 만들 수 있는 것처럼, 특정 영상에 특화된 영상 제작 툴도 만들 수 있게 되겠죠.

영상을 하는 사람으로서, 소라의 등장은 정말이지 무섭습니다. 어쩌면 저는 지금, 저의 장례식을 생중계하고 있는 건지도 모르겠습니다. 다만 서비스가 출시됐을 때 누구보다 빠르게 영상을 제작해서 여러분과 팁 같은 것들을 공유할 것을 약속드립니다.

자 그럼 금발 벽안의 남자가 한국말로 리뷰하는 그날까지, 구독, 좋아요, 알림 설정.

영상제작. 바이라인네트워크

촬영·편집. 바이라인네트워크 영상팀 byline@byline.network

대본. <이종철 기자>jude@byline.network

[까다로운 IT] 모두가 감독이 된다, 오픈 AI 소라

[무료 웨비나] 아이덴티티 보안 없는 보안 전략은 더 이상 안전할 수 없습니다

답글 남기기 응답 취소