영화·드라마 제작 혁신 이끄는 미디어 AI 기술, ‘CJ AI 페이스 서비스’ 개발자를 만나다
[인터뷰] CJ올리브네트웍스 AI연구소 이현기 수석연구원, 김예진 연구원
#2020년 12월, 엠넷(Mnet)은 ‘AI 음악 프로젝트 다시 한 번’ 타이틀을 내건 프로그램에서 많은 사람들이 그리워하는 혼성그룹 ‘거북이’의 공연을 시도했다. 지난 2008년 갑자기 세상을 떠난 터틀맨을 인공지능(AI) 기술로 생전 모습 그대로 구현해 무려 12년 만에 거북이가 완전체로 춤추며 노래하는 감동의 무대가 전파를 탔다. ‘다시 한 번’은 이 첫 방송으로 단숨에 큰 화제를 모았고, 방송 직후 한 달도 채 지나지 않아 엠넷 톱(Top)10에 올랐다.
터틀맨이 어떻게 생전 그 모습 그대로 나와 다른 멤버들과 함께 공연을 펼칠 수 있었을까. 이 프로그램이 내걸었듯, 바로 AI 기술이 만들어낸 꿈같은 현실이다.
CJ올리브네트웍스(대표 차인혁)의 AI연구소가 개발한 ‘CJ AI 페이스 서비스’를 활용해 ‘페이스 스왑(Face Swap)’ 기술이 구현된 것으로, 국내 방송 미디어 콘텐츠 사상 최초의 사례였다.
CJ올리브네트웍스의 최고기술책임자(CTO) 산하 AI연구소는 이같은 미디어 AI 기술을 전문으로 연구 개발한다. CJ올리브네트웍스가 CJ그룹의 IT 책임지는 만큼, AI연구소가 속한 CTO 조직은 전사 기술 전담조직으로 CJ그룹의 비즈니스 경쟁 우위를 확보하기 위한 기술 진화와 개발 문화 혁신을 이끄는 동시에 미래를 준비하는데 중추적인 역할을 하고 있다. 더욱이 CJ그룹에는 CJ ENM, 스튜디오드래곤 등 미디어·엔터테인먼트 분야에서 강점을 가진 계열사들이 다수 포진돼 있다.
AI연구소에서 개발한 ‘CJ AI 페이스 서비스’는 미디어 콘텐츠 속 얼굴과 관련된 작업들을 보다 쉽게 할 수 있도록 만든 서비스다.
CJ AI 페이스 서비스는 대표적으로 터틀맨 복원에 사용된 ‘페이스 스왑’ 기술과 더불어 ‘페이스 제너레이션(Face Generation)’ 기술을 지원한다. ‘페이스 스왑’은 영상 속의 얼굴을 원하는 얼굴로 바꿔주는 기술이다. 이 ‘페이스 스왑’ 기술은 최근 들어 영화나 드라마 영상 콘텐츠에 점차 활용되고 있다. ‘페이스 제너레이션’은 세상에 존재하지 않는 가상 인물의 얼굴을 만드는 기술로, 주로 ‘가상 인간(Virtual Human)’을 만들 때 활용한다.
CJ올리브네트웍스는 수작업 대신에 AI 모델을 적용해 얼굴 관련 작업을 빠르게 진행하도록 해 콘텐츠 제작 기간과 비용을 절감할 수 있게 하는 CJ AI 페이스 서비스를 지난 2020년부터 개발해 발전시켜나가고 있다.
이 서비스를 위한 전체 환경은 모두 아마존웹서비스(AWS) 기반 퍼블릭 클라우드 서비스에서 구현해 제공하고 있다.
‘CJ AI 페이스 서비스’를 개발한 이현기 CJ올리브네트웍스 수석연구원, 김예진 연구원을 만나 이같은 미디어 AI 기술과 IT 환경에 관한 이야기를 나눠봤다.
먼저 ‘CJ AI 페이스 서비스’를 소개해주세요.
김 연구원 : AI 페이스 서비스는 콘텐츠 속 얼굴과 관련된 작업들을 쉽고 빠르게 할 수 있게 만든 서비스입니다. 대표적으로 ‘페이스 스왑’과 ‘페이스 제너레이션’ 기술을 제공합니다. 페이스 스왑은 영상 속 얼굴의 표정과 입모양은 그대로 유지한 상태에서 얼굴만 다른 인물로 바꿔주는 기술이고, 페이스 제너레이션은 얼굴을 세상에 존재하지 않는 가상 인물의 얼굴을 만드는 기술입니다. 기존에는 영상 콘텐츠 속 얼굴에 컴퓨터그래픽(CG) 기술을 적용하기 위해선 프레임별로 작업을 해야 하기 때문에 많은 시간이 들어갈 수밖에 없는데요. AI 페이스 서비스는 수작업 대신 AI 모델을 적용해 얼굴과 관련된 작업을 빠르게 진행해 콘텐츠 제작 기간과 비용을 절감할 수 있게 해줍니다.
페이스 스왑은 얼핏 ‘딥페이크(Deepfake)’와 비슷한 것 같은데요. 이전에 오바마 대통령 등 정치인이나 유명 배우의 얼굴을 딥페이크 기술로 실제와 비슷하게 만들었던 가짜 영상이 이슈화됐던 사례들이 먼저 떠오르던데요.
이 수석연구원 : 딥페이크와 추구하는 바는 동일하다고 보면 될 것 같습니다. 딥페이크는 인식이 안좋지만 페이스 스왑은 ‘터틀맨’ 사례에서 볼 수 있었던 것처럼 시청자들에게 감동을 줄 수 있었습니다. 엠넷이 국내 상업 방송에서는 처음 시도했습니다.
김 연구원 : 페이스 스왑은 영상에서 바꾸려는 얼굴 데이터를 추출한 후, 딥러닝 알고리즘 기반의 얼굴 생성 모델 학습을 거쳐, 최종적으로 얼굴이 변경된 영상을 만들어내는 프로세스로 이뤄집니다.
터틀맨 외에 AI 페이스 서비스를 적용한 또 다른 사례가 있나요.
이 수석 연구원 : tvN 드라마 ‘나빌레라’에도 페이스 스왑 기술이 30~40컷 정도 적용됐습니다. 발레 관련 드라마였는데, 주연 배우들이 2~3개월 동안 연습하더라도 전문가처럼 할 수가 없는데요. 감독들은 고난이도 장면을 연출해 멋있게 찍고 싶어하는데, 만일 대역만 사용하면 발레를 하는 장면에서 주연배우 얼굴이 나오지 않거나 알아볼 수 없을만큼 빠르게 지나가게 됩니다. 페이스 스왑 기술을 사용하면 이 배우가 이 장면을 실제로 연기한 것처럼 자연스럽게 연출할 수 있게 돼 시청자들이 드라마에 더 몰입할 수 있게 됩니다.
김 연구원 : tvN 스토리 예능 ‘불꽃미남’에도 페이스 디에이징(De-aging) 기술을 적용한 사례가 있습니다. 계열사 외에도 샌드박스 네트워크의 보물섬 크리에이터분들과도 페이스 스왑 작업을 진행했고, 다른 기업과 협업한 사례도 있습니다.
페이스 스왑 등 AI 페이스 기술을 적용한 배경과 이유는 무엇입니까. 나아가 미디어 AI 기술이 관련업계에서 어느 정도로 많이 활용하고 있는지요.
이 수석연구원 : 최근 OTT 시장이 급속도로 성장하면서 미디어 콘텐츠의 수요가 늘어나고 있는 추세입니다. 그러나 늘어난 수요에 비해 콘텐츠 제작에 주어진 기간은 길지 않은데요. 예를 들어 우리나라 드라마 평균 제작기간은 약 1년 정도입니다. 때문에 드라마 등 미디어 콘텐츠 제작사에서는 AI를 접목한 제작 파이프라인 효율화를 고려하고 다양한 업무에 AI 도입을 시도하고 있는 것으로 알고 있습니다.
김 연구원 : 넷플릭스 영화 아이리쉬맨에서는 ‘페이스 디에이징’ 기술을 적용해 로버트 드니로의 얼굴을 영화 속 40대 시절의 젊은 모습을 표현하기 위해 얼굴에 VFX 기술을 적용했다고 합니다. 이 페이스 디에이징에만 무려 2년이 걸렸다고 하는데요. 이같이 긴 시간이 필요한 VFX 작업을 적용하는 것은 현실적으로 쉽지 않은 일입니다. 이러한 한계를 극복하고 더욱 창의적인 콘텐츠 제작해 시청자들에게 새로운 경험을 선사할 수 있도록 페이스 스왑 기술을 개발하게 되었습니다.
페이스 스왑 외에 다른 AI 페이스 서비스인 페이스 제너레이션도 소개해주세요. 이 서비스도 적용 사례가 있는지요.
김 연구원 : 얼굴, 표정 등 신체적 특징들을 AI 기술로 구현한 실존하지 않는 가상 인물, 즉 버추얼 휴먼의 얼굴을 만드는 기술입니다. 여러 캐릭터와 페르소나를 가진 버추얼 휴먼 만들고 있습니다. 가상 인플루언서, 가상 아이돌, 가상 쇼호스트, 가상 카운슬러 등이 될 수 있습니다. 사내에서 만든 멘탈 케어 앱이 있는데요, 여기에 가상 카운슬러를 적용했습니다. 계속해서 다양한 페르소나를 만들고 신규 캐릭터를 만들기 위해 기획하고 있는 단계입니다. 실제로 가상 싱어도 만들었는데요. 관련해 자체 유튜브를 운영하고 있습니다. ‘CJ올리브네트웍스 AI연구소’ 채널에 가보시면 가상 아이돌이 노래 부르는 영상과 가상 카운슬러 활용 예시 등을 보실 수 있습니다.
‘AI 페이스 서비스’는 AWS 클라우드상에서 구현돼 있는 것으로 알고 있습니다. 어떠한 기술을 활용하고 있는지, 적용 후 기대효과 대비 만족할만한 결과를 얻었는지 궁금합니다.
이 수석연구원 : 아마존 EC2(Elastic Compute Cloud)와 아마존 EFS(Elastic File System)를 활용해 AI 페이스 서비스를 구현했습니다. 아마존 EFS에 얼굴 이미지, 학습 데이터 모델 결과 동영상 등 모든 데이터를 저장했습니다. 그리고 모든 EC2 인스턴스에서 EFC 볼륨을 자동으로 마운트되도록 구성해 사용했습니다. EFS는 자칫 데이터 용량 문제가 발생할 수 있는 환경에서 이론적으로는 용량이 필요하면 무한대로 사용할 수 있을만큼 탄력적으로 지원해 편리했습니다. 데이터 관리에 대한 오버헤드 전혀 없이 다양한 종류의 인스턴스에서 언제든지 실험을 진행할 수 있었습니다.
AI 페이스 서비스 툴도 EC2 인스턴스상에서 구동되도록 했는데요, AWS에서 제공하는 딥러닝용 AMI(Amazon Machine Image)를 이용해 도커라이징돼 있는 AI 페이스 서비스 툴을 AWS EC2에서 바로 구동할 수 있어 편리합니다.
또 실제 미디어 콘텐츠에 적용하기 위해서는 다양한 EC2 의 GPU 인스턴스를 상황에 맞게 사용해야 합리적으로 완성도 높은 결과물을 얻을 수 있는데요. 예를 들면 테스트 단계에서는 상대적으로 낮은 성능의 G4dn 인스턴스를 사용해 여러가지 실험을 하고 최종 결과물 학습 단계에서는 앞선 실험을 통해 얻은 결과를 반영해 고성능 P4d 인스턴스에서 빠르고 높은 퀄리티의 결과물을 얻을 수 있었습니다.
AWS의 머신러닝(ML) 서비스인 아마존 세이지메이커(SageMaker)도 일부 활용했습니다. AI 엔지니어가 직접 세이지메이커를 사용해 바로 EC2 인스턴스만 선택해 데이터 처리, 학습을 할 수 있도록 구성했습니다. 또 학습이 완료된 후 프로젝트를 수행할 때 페이스 스왑 동영상을 EFS에서 S3로 바로 옮겨 바로 고객이 다운로드 할 수 있도록 제공합니다. 영상 파일 용량이 상당히 크기 때문에 페이스 스왑 결과물 데이터를 업로드하거나 다운로드할 때 시간이 오래 걸리고 비용도 많이 걸리기 때문에 이같은 효율적인 환경을 구성해야 합니다.
다양한 클라우드 서비스가 있는데, AWS를 선정한 특별한 이유가 있나요.
이 수석연구원 : AWS가 퍼블릭 클라우드 서비스 중에 점유율이 1위이기도 하지만, 저희는 AI 학습을 위한 환경이 얼마나 잘 갖춰져 있느냐를 중점으로 고려했습니다. AI 모델링을 활용하려면 딥러닝 학습에 GPU가 필요합니다. AWS는 다양한 인스턴스를 필요할 때 언제든지 사용할 수 있도록 제공하는데, 특히 한국에서 사용할 수 있는 다양한 종류의 GPU 인스턴스를 보유하고 있었습니다. 당시에 다른 글로벌 클라우드 서비스 제공업체들은 한국에서 제공되는 GPU 인스턴스 종류가 매우 제한적이었습니다. 현재 가장 고성능 GPU라고 할 수 있는 P4d 인스턴스는 당시 AWS만 제공했습니다. 저희는 제작단계에서 효율성을 높이기 위해 다양한 인스턴스를 활용합니다. 촬영 후 페이스 스왑 단계에서 사용하는 고성능 A100 GPU가 탑재된 P4d 인스턴스와 콘텐츠 제작 전에 테스트 단계에서 사용한 G4dn, P3 인스턴스의 트레이닝 시간이 얼마나 소요됐는지 측정해보니 P4d 인스턴스가 G4dn 인스턴스보다 6배 가까이 빠른 것으로 확인했습니다.
AWS 세이지메이커에서 주피터같은 기본 노트북뿐 아니라 그라운드 트루스(Ground Truth) 라벨링 등 다양한 기능을 제공하고 있어 다양한 AI 실험을 할 수 있다는 환경을 제공합니다.
AI 페이스 서비스에 온프레미스 환경은 전혀 활용하지 않고 있는 것인지요.
이 수석연구원 : GPU가 탑재된 컴퓨팅 환경을 직접 구축(온프레미스)하려면 비용과 시간이 너무 많이 들고 속도와 확장성도 요구를 충족시키지 못합니다. 특히 프로젝트 수행할 때에는 고해상도의 방대한 영상 데이터를 사용하기 때문에 퍼블릭 클라우드 서비스만 이용하고 있습니다.
적용 후 당초 기대 효과 대비 만족할만한 결과를 얻었는지요.
이 수석연구원 : 온디맨드(On-demand) 환경에서 작업 후 결과물을 전달하기 위해서는 많은 학습이나 네트워킹 비용이 소요되는데, 데이터 처리부터 학습과 결과물 전달까지 전 과정에서 AWS 클라우드를 이용하면서 미디어 콘텐츠를 신속하게 제작할 수 있도록 지원하는 성공 사례를 만들어 낼 수 있었습니다. 결과적으로 모든 프로세스에 AWS 서비스를 적용하면서 많은 비용과 시간을 절약할 수 있었습니다.
현재 AI 페이스 서비스와 관련해 중점을 두고 있는 것은 무엇인가요. 그리고 향후 계획도 설명해주세요.
이 수석연구원 : 모든 AI 서비스에 있어 좋은 결과를 내기 위해서는 양질의 데이터 확보가 가장 중요합니다. 저희는 자체적으로 제작한 데이터 수집 가이드를 활용하고 있고, 학습 데이터를 좀 더 효율적으로 사용하기 위해 클라우드뿐만 아니라 자체 개발한 얼굴 각도 분석툴을 사용해 고품질의 결과물을 만들고 있습니다. 예를 들어 합성한 영상의 경우, 입모양이 영상의 음성을 자연스럽게 따라가지 못한 채로 제한적인 입모양만 보여주는 경우가 많은데 그런 부자연스러움을 해결하였고, 시선 처리도 디테일한 부분까지 자연스럽게 구현했고, 보다 더 자연스러운 영상을 만들기 위해 계속해서 연구 개발하고 있습니다.
현재는 페이스 스왑보다는 페이스 제너레이션, 버추얼 휴먼을 만드는데 주력하고 있습니다. 그리고 AI 페이스 서비스를 서비스형소프트웨어(SaaS)로 출시할 로드맵도 가지고 있습니다. 지금은 영상 소스나 데이터를 받아서 페이스 스왑이나 페이스 제너레이션을 하는데, 앞으로는 현업 담당자가 언제든 원하는 환경에서 영상 데이터를 모아 파일을 선택해 직접 페이스 스왑 결과물을 얻을 수 있는 서비스를 연내 출시할 계획입니다.
현재 활용 중인 분야 외에 추가 기술 개발·적용 계획이 있는지요.
김 연구원 : 다양한 캐릭터의 버추얼 휴먼을 제작하는데 집중할 예정입니다. 문화예술계 전반에도 다양하게 협업할 수 있는 기회가 많아 버추얼 휴먼 관련 지적재산권(IP)를 만드는 작업도 하고 있습니다. 앞으로 자체 IP를 확보한 버추얼 휴먼들이 여러 미디어 콘텐츠에서 활용하게 할 계획입니다. 추후 중소 콘텐츠 크리에이터들도 쉽게 사용할 수 있도록 제작할 것입니다.
이 수석연구원 : 저희 AI연구소에서는 다양한 미디어 AI 기술 연구개발에 집중하고 있습니다. 예를 들면 영상 콘텐츠에서 특정 오브젝트를 자동으로 지우는 ‘AI 리무버(Remover)’, 동영상 콘텐츠를 분석해 클립, 썸네일을 자동 생성해주는 ‘비디오 애널라이저(Video Analyzer)’, 원하는 인물의 목소리로 텍스트를 자연스럽게 읽어주는 ‘비디오 클로닝(Voice Cloning)’, AI 작사·작곡, 텍스트로 이미지를 생성하는 ‘텍스트투이미지(Text2Image)’ 기술 등이 있습니다. 미디어 콘텐츠 산업에서 유용하게 사용될 기술 연구를 중점적으로 진행하고 있습니다.
앞으로 미디어 AI 기술과 서비스 발전 전망을 어떻게 내다보고 있는지 말씀 부탁드립니다.
이 수석연구원 : 다른 산업 분야와 마찬가지로 미디어 산업에도 AI 기술 도입을 통한 발전이 활발하게 이뤄지고 있습니다. 그런데 미디어 산업이 다른 점이 있습니다. 다른 산업에서는 AI에게 요구하는 것은 공장자동화 영역에서 불량률을 낮추기 위해 “불량품을 정확하게 식별해줘”라고 하거나 “최적의 배송 경로를 찾아줘”처럼 대부분 목표가 명확합니다. 그렇지만 미디어 콘텐츠 분야는 사실 정답이란 게 없습니다. AI가 잘하는 것은 재식별하고 분류하고 예측하는 것인데, 창의적인 콘텐츠 영역에 적용하기 어렵기 때문입니다. 사람이 가진 창의적인 능력을 AI가 대체할 수 없고 창의적이라는 기준 자체가 주관적입니다.
다만 콘텐츠 제작 과정에서 감독이나 작가들이 가진 창의적인 생각을 콘텐츠에 실현할 수 있도록 AI 기술이 도와줄 수 있을 것입니다. 현재의 영화나 드라마 콘텐츠에 수작업으로 한땀 한 땀 VFX를 적용하는 시간과 비용을 줄이고 보다 창의적인 콘텐츠를 만드는데 집중할 수 있게 한다는 점에서 AI가 할 수 있는 일이 무궁무진할 것이라고 생각합니다.
글. 바이라인네트워크
<이유지 기자>yjlee@byline.network
XR(AR, VR) 기반의 실감형 메타버스 구현 기술 세미나 안내입니다.
– 실감 인터랙션, 가상/현실 공간의 동기화, 촉각햅틱, 볼류메트릭, 디지털 휴먼
주최 : 한국미래기술교육연구원 , 일시 : 2022년 5월 20일 , 장소 : 전경련회관 / 온라인 생중계
https://www.kecft.or.kr/shop/item20.php?it_id=1647844782