‘내이름은 김삼순’, 리마스터링 가능하게 한 기술은?

지난 추석에 공공의적 2가 TV에 나오길래, 오랜만에 온 가족이 시청했다. 너무 놀란 것이, 2005년 개봉된, 그러니까 19년 밖에 안 된 이 작품의 화질이 너무 깨져 보여서 ‘아니, 이게 1980년대 드라마도 아니고’란 생각이 절로 들었더랬다.

그런데, 비슷한 때 OTT 플랫폼 웨이브에서 ‘뉴클래식 프로제트’의 일환으로 ‘내이름은 김삼순’의 리마스터 버전이 공개됐다. 공공의적2와 같이 2005년에 공개됐던 작품인데, 일단 아래 화질을 봐달라.

출처=포바이포

딱 봐도 왼쪽이 2005년, 오른쪽이 2024년의 얼굴이란 걸 확실히 알겠다. 세월이 지났는데, 김삼순의 피부가 화사하고 눈동자가 또렷해졌다. 어떤 기술을 적용해 가능한 것이냐면, 영상 업스케일링 덕이다.

1년 걸리던 영상 업스케일링을 1시간 내에 해결

일단, 이것부터 생각해보자. 2005년엔 멀쩡해 보였던 화질이 왜 지금 와선 나빠 보일까? 우리가 보는 디스플레이 크기가 커져서다. 가정에 보급되는 TV가 60인치, 70인치로 커지면서 기존의 풀HD 이하, SD급으로 찍은 화질의 영상은 당연히 깨져 보인다. 작은 픽셀들이 사람 눈에 보일 정도로 도드라지는 것인데, 디스플레이가 커진 만큼 영상 콘텐츠의 화질 역시 올라가야 이런 사태를 막을 수 있다.

이 문제를 풀기 위해선 화면의 노이즈를 제거하고, 선예도를 높이고 색감을 선명하게 살려주는 기술이 영상 화질을 개선하는데 들어가야 한다. 이런 기술은 과거에도 물론 있었다. 그렇지만 모든 콘텐츠의 화질 개선에 들어가긴 어려웠다. 기존에는 장인들이 프레임(사진)을 한 땀 한 땀 수작업으로 손보면서 화질 개선을 했기 때문이다. 돈도, 시간도 많이 드는 작업이었다.

‘김삼순’ 프로젝트는 화질 개선에 장인의 손길이 한땀한땀 들어가지 않았다. ‘픽셀’이라는 화질 개선 AI 솔루션이 이를 실시간으로 이뤄내고 있어서다. 포바이포라는 회사에서 공급하는 솔루션인데, 회사 측에 따르면 화질 개선에 들어가는 시간은 영상의 재생 속도와 같다. 실시간이라는 말이다. 이전에는 1시간 영상을 고화질로 바꾸는데 프레임 마다 수작업이 들어가야 했으므로 수개월에서 1년의 시간이 걸리던 작업이다. 압도적인 시간의 단축이다.

다음은, 김삼순 영상을 업그레이드 시킨 배성완 포바이포 픽셀사업본부장과 인터뷰다. 영상 업스케일링 솔루션이 AI를 만나 어디 까지 왔는지, 그리고 어디에 더 쓰일 수 있는지를 들어봤다.

Q. 화질을 개선하는 솔루션은 기존에도 많이 있었는데

= 이상적인 품질의 영상을 만들기 위해선 여러 과정을 거쳐야 하는데, 이 과정들을 AI가 원클릭으로 한 번에 하게 했다는 것이 다르다. 모든 기능을 AI 모델이 통합, 자동으로 실시간 작업해준다는 것이 가장 큰 특징이다. 또, 영상이 커지면 당연히 트래픽이 늘어나고 망 사용료도 증가할 수밖에 없다. 고화질로 만들면서도 용량을 줄이는 것이 기술인데, 이런 것들을 AI가 조절해준다.

Q. AI를 쓰면 얼마나 더 효율적인가? 피부에 와닿게 설명해달라

= 움직이는 화면도 결국은 사진 프레임이 연속 겹쳐지면서 만들어진다. 자연스러운 화면을 만들기 위해선 1초에 30프레임(1초에 30장의 사진) 가량이 들어가는데, 이를 한시간 분량의 드라마로 바꾸면 3600초다. 한 시간에 10만장이 넘는 프레임이 들어가서 드라마 1회분이 나오는 거다. 10만장이 넘는 프레임을 사람이 일일이 노이즈를 지우고 선예도를 올려야 한다. 작업을 모두 손보는데 드는 시간과 비용은 때에 따라 다르지만, 최대 1년에서 비용은 프레임당 수십만원도 한다. 이걸 AI 솔루션은 실시간으로 변환하기 때문에 1년의 시간을 1시간으로 줄일 수 있다. 당연히 비용도 획기적으로 작아진다.

Q. 김삼순 말고 또 계획중인 프로젝트가 있나

= 아직 공개하긴 어렵지만, 물론이다. 그런데 김삼순처럼 과거의 콘텐츠를 복원하고 화질개선하는 것에만 AI 솔루션이 쓰이는 것이 아니다. 복원 영역은 사실 굉장히 일부분이고, 더 큰 시장은 새로 영상을 만들 때다. 4K 콘텐츠가 흔해진 것 같지만 4K, 8K 촬영장비까지 흔해진 것은 아니다. 실제로 촬영환경은 아직도 풀HD 카메라가 가장 보편화되어 있다.

따라서, 제작은 (비교적) 저화질로 만들고, 마지막에 시청자에 보여주기 전 단계에서 고화질이 필요하면 포바이포의 픽셀 솔루션을 쓰는 경우가 앞으로는 더 클 것으로 예상해 집중하고 있다. 예를 들어서 VFX(시각효과)와 같은 특수효과를 전문으로 하는 곳이나 콘텐츠 창작을 하는 회사, 개인이 픽셀 솔루션을 더 활발히 쓸거라고 기대하는 것이다.

Q. 애초에 고화질로 영상을 제작하는 것과 후작업으로 고화질을 만드는 것에는 품질 차이가 없나?

= 아무리 고화질 카메라로 찍어도, 촬영과정에서 이미 색이 변질이 되고, 렌더링과 인코딩 과정에서 화질이 열화되어 안 좋아지는 현상이 발생한다. 따라서, 필연적으로 발생하는 열화 요소를 제거하고 영상 품질 자체를 개선하는 것을 후반 작업에선 꼭 필요로 한다.

소리를 세련되게, 공간감을 느끼게

오디오는 더 흥미롭다. 영상 업스케일링만 있는 줄 알았는데 이번에 김삼순 리마스터링에는 오디오의 품질도 개선됐다. 그런데, 오디오는 영상과는 달리 음질을 더 선명하게 하는데 초점을 맞추지 않는다. 대신, 소리를 세련되게 만들고 공간감을 심어주는 데 힘을 줬다.

백문이불여일청. 일단 소리부터 들어보자. 김삼순의 공간감을 어떻게 살렸는지 공유하고 싶지만 저작권 문제로, 같은 기술이 쓰인 유튜브 링크를 아래 첨부한다. 이 영상을 만든 가우디오랩 측에서는 가능하면 꼭! 이어폰을 끼고 들어보라고 조언한다.

YouTube video

 

들어보셨습니까. 왼쪽 사람이 말하면 화면의 왼쪽에서 소리가 나고, 오른쪽에서 바람이 불면 화면 오른쪽으로부터 소리가 들려오는 걸.

이렇게 소리를 원하는 곳에 집어 넣기 위해서는 중요한 기반 기술이 있다. 음원을 ‘사람의 말’ ‘배경 음악’ ‘배경 소리’로 모두 분리하는 기술이다. 소리를 떼어내면 일종의 ‘구작’들에게도 새로운 기회가 생겨난다. 영상에 쓰인 음원의 저작권 문제로 해외 수출이 안 된 콘텐츠라면 음악을 바꿔서 새로 믹싱할 수 있다. 더빙을 하려고 해도 사람 목소리를 분리해야 해서 어려웠는데, 이 역시 충분히 가능해진다. 김삼순과 같이 과거 큰 사랑을 받았으나 지금은 묻혀 있는 콘텐츠를 여러 나라로 공급할 수 있는 길이 열리는 것이다.

오디오를 개선하는 것이 생각보다 큰 경제적 효과를 가져올 수 있다는 오현오 가우디오랩 대표와 인터뷰 내용 일부를 공개한다. 오디오 개선은 왜 필요할까? 시청자는, 콘텐츠 산업계는 개선된 오디오를 통해 무엇을 얻을 수 있을까?

Q. 오디오, 어떤 부분을 개선하나?

= 구작을 현대로 가져왔을 때, 각 시대마다 믹스 마스터링 과정을 통해 만들어내는 음향의 유행이 다르다. 스타일 자체에서 차이가 있다. 음악의 예를 들어보면, 1960년대 70년대 음악이 어딘가 힘이 없게 느껴지는 경우가 있지 않나. 그런데 최신 음악을 들으면 훨씬 비트감 있고 악기도 더 꽉찬 기분이 들고. 이게 마스터링하는 과정에서 오는 유행의 차이다.

영상을 업스케일링하면 화질은 쨍한데 소리는 옛날 느낌이 들 수 있으니 이를 바꿔줘야 하기도 한다. 그 사이 소프트웨어 툴이 진화하기도 했고.

Q. 요즘 귀에 맞는 소리, 세련된 소리를 만든단 이야기인데

= 그렇다. 주파수를 표현하는 해상도의 범위를 더 넓혀주는 것이 업스케일링이지만 사실은 김삼순이 있던 그 시대에도 오디오는 사람 귀로 들을 수 있는 모든 주파수를 이미 포함하고 있었다. 그래서 지금은 오디오의 해상도를 높이는 것도 하지만, 앞서 말한 것처럼 오히려 믹싱을 요즘 풍으로 바꿔주는 것이 더 중요한 가치일 수 있다. 그 대표적인 것 중 하나가 공간음향 같은 것을 적용해보는 일이다.

Q. 공간음향의 예를 들어달라

= 입체 음향과 같은 개념이다. 예전에는 모든 소리가 화면 중앙에서 나왔다. 그런데 공간 음향을 적용하면, 예를 들어 문을 닫는 소리는 화면 저 뒤에서 들리고, 새가 지줘기면 하늘 위, 즉 화면 상단에서 소리가 난다. 이런 식으로 소리의 공간 배치를 다르게 함으로써 고급스러워지고 세련돼지는 효과를 볼 수 있다.

Q. 이전에는 공간음향을 심기 위해선, 사람이 프레임마다 일일이 소리를 심어야 했나?

= 공간음향을 심으려면 영상 안 모든 소리의 개별 소스(대사, 배경음악, 배경음)를 하나하나 따로 가지고 있어야 했다. 그런데 제작 스튜디오를 제외하곤, 방송국이든 어디든 완성된 음향 파일만 갖고 있지 소리가 분리된 소스를 모두 갖고 있는 곳이 없다. 결국 소리를 개별로 뜯어내기 어려우니 공간 음향을 입힐 수 없는 문제가 있었다.

가우디오랩이 지금 집중하고 있고, 중요하다고 생각하는 것이, 이 ‘구작’이라고 불리는 콘텐츠들이다. 세계의 콘텐츠 99%는 음원이 분리되어 있지 않다. 하나로 뭉쳐져 있는 덩어리만 가지고 있으니 음향을 개선하기 어렵다. 더 중요한 것은, 음원이 분리되어야 배경음악도 바꿀 수 있고, 더빙도 가능하다. 그리고, 이게 가능해야 콘텐츠의 수출도 가능하다.

Q. 음원 분리는 어떻게 이뤄지나

= 가우디오랩에 ‘지셉(GSEP)’이라는 기술이 있다. 개별 음원을 분리하는 AI 기술이다. 이 기술을 쓰면, 시끄러운 환경에서 통화할 때 자동차 소리와 같은 소음은 지우고 내 목소리만 뽑아낼 수 있다. 아이돌의 음악 링크를 입력하면 개별 보컬의~ 목소리나, 악기 소리, 기타 소리, 드럼 소리 같은 것을 모두 따로따로 뜯어낼 수도 있고.

Q. 어렸을 때 ‘주말의 명화’를 보면 더빙이 되어 있던데. 헐리우드 영화는 수출을 전제로 했기 때문에 음원 소스를 분리해서 갖고 있는 반면, 한국 콘텐츠는 수출을 전제하지 않기 때문에 덩어리 파일만 있는 건가?

= 그렇다. 드라마를 해외로 수출하려면 영상에 나오는 노래 자체를 교체해야 하는 수가 생긴다. 예를 들어서 김삼순 같은 경우도 1편에 레이 찰스의 노래가 나오는데, 국내 방송에서는 저작권을 위반하지 않지만 해외로 수출할 때는 로열티를 새로 내야 한다. 수출로 버는 돈보다 로열티가 더 비싼 경우가 생긴다. 음원이 분리돼야 이럴 때 OST를 교체해서 내보낼 수 있다.

또, 이전에는 분리되어 있는 음원이 있다고 하더라도 교체할 음악을 사람이 일일히 (기억에 의존해) 적절한 음악을 고르고 입히는 작업을 해야 했다. 그런데 지금은 AI 솔루션이 적절한 음원을 빨리 찾아 입히는 작업을 해내기 때문에 시간과 비용이 적게 든다.

Q. 저작권 문제 뿐만 아니라, 현지화에 맞는 음악이나 소리를 입히는 데도 유용할 것 같은데

= 그게 우리가 보는 다음 스텝이다. 범용 음악 하나를 넣는 것이 아니라, 인도에 갔을 때 현지에 맞는 음악을 넣으면 더 잘 먹힐 거다. 현지화가 얼마든지 가능해진다는 장점이 생긴다.

글. 바이라인네트워크
<남혜현 기자> smilla@byline.network

[무료 웨비나] API연결만으로 가능한 빠르고 쉬운 웹3 서비스 구축

  • 내용 : API 연결을 통해 웹2와 웹3를 끊김 없이 연결하는 최신 융합 기술과 이를 통한 적용 사례를 다룹니다.
  • 일시 : 2024년 10월 10일 (목) 14:00 ~ 15:10

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다