AI(인공지능) 기술이 발전하며 여러가지 미래가 바뀔 것처럼 떠들썩하지만 막상 실생활에서 체험하기는 쉽지 않다. 공장 자동화, 대용량 자료 분석 등 과정에서 사용되는 AI 기술은 일반인이 이용하기 어렵고, 영화 속 AI 로봇이나 사이버 비서 등은 아직 어림없다. 그나마 챗봇, 음성인식 AI 스피커 정도가 직접 만나는 경우가 되겠지만 뭔가 아쉽다.
사실은 우리가 느끼지 못하는 사이에 AI의 무한한 가능성은 생활 속에 빠르게 파고들고 있다. 유튜브, 생활 서비스 등에서 영상으로 접하는 사람 중에 이미 AI로 만들어진 이가 섞여 있다면 구별할 수 있을까? 그들이 이야기하는 목소리도 AI로 만들어졌다면? 이제 원한다면 영원히 나이 들지 않고 스캔들도 없는 이상형의 아이돌을 만날 수 있고, 텍스트 입력 만으로 자신이 이야기하는 영상을 만들거나, 좋아하는 성우가 맘에 드는 목소리로 원하는 책을 읽어주는 영상을 AI로 만들 수 있는 시대가 열리고 있다.
◆ AI가 만드는 진짜 같은 가짜 딥페이크
여기에 사용되는 대표적인 AI 기술이 딥페이크(deepfake)다. 딥페이크는 AI 딥러닝(deep learning)과 페이크(fake)를 합친 말로, AI가 기존의 이미지, 음성, 영상을 분석해 가상의 이미지와 음성, 영상을 만들어 내는 기술을 말한다.
딥페이크 기술을 이용하면, CG(Computer Graphics)로 얼굴과 몸 등 화면 전체를 직접 만들던 예전과 달리, 기존 영상에 얼굴 안쪽의 눈, 코, 입 부분만 합성해 바꾸는 등 AI로 일부만 변경해 합성함으로써 적은 노력으로 실제와 같은 영상을 만들어 낼 수 있다.
기존의 CG에 의존한 가상 인물보다 제작과 활용에 기술적, 경제적 부담이 적고, 가상의 인물을 만들 경우 활용도와 저작권에서도 자유로워 상업적 가치가 매우 높다. 최근 유튜브, 틱톡 등을 통해 유명인의 얼굴이 합성된 가짜 영상들이 돌며 화제가 되거나 악용되며 우려를 낳기도 하는데, 그만큼 만들기 쉽고 실감나게 만들 수 있다는 반증이기도 하다.
딥페이크 기술로 만들어낸 음성의 경우에도 실제 인물을 따라하거나 새롭게 만들어 낼 수도 있어 활용도는 무궁무진하다. 단순히 책이나 뉴스 등의 글을 읽어주는 기능에서 영화나 애니의 성우를 대신할 수도 있고 가상의 아이돌의 노래를 부를 수도 있다.
실제로 이런 딥페이크 기술을 통해, 2020년 21대 총선의 MBC 개표 방송에서 개그맨과 정치인의 AI 캐스터가 실시간으로 중계한 바 있고, 미국의 인기 애니메이션 심슨 가족 시리즈의 최신 에피소드에 고인이 된 성우 마샤 윌리스의 캐릭터였던 크라바플이 다시 등장해 재현된 목소리로 작별인사를 전하기도 했다.
국내에서는 라이언로켓(대표 정승환), 펄스나인(대표 박지은), 네오코믹스(대표 권택준) 등의 기술력 있는 스타트업들이 딥페이크 기술의 활용에 도전하고 있다.
◆ AI 영상과 음성을 모두 만드는 라이언로켓
라이언로켓은 딥러닝 기반의 음성합성 솔루션과 영상합성 솔루션, AI 영상제작 프로그램 등의 사업을 진행하는 AI 기술 스타트업이다.
특정 인물의 영상을 촬영하기 위해서는 기획, 섭외, 스케쥴링의 과정을 거쳐 사전 준비를 하고, 촬영을 진행한 이후에도 마스터링, 자막, 렌더링의 정리 작업을 해야 한다. 이 모든 커뮤니케이션과 작업을 사람이 직접 하며 많은 시간과 자원이 소요된다. 혹시 촬영 중 일부가 잘못된 경우 다시 이 과정을 되풀이해서 그 부분을 수정 촬영해야 한다.
라이언로켓은 자체 개발한 딥러닝 기반 영상생성 기술과 음성생성 기술을 통해 1시간 정도의 영상 자료가 있다면 그 자료를 학습하고 음색, 표정, 발화속도 등을 모사하는 영상 제작이 가능해, 이후 텍스트만 입력해도 해당 인물이 이야기하는 영상을 새롭게 만들어 낼 수 있다.
라이언로켓에서는 러닝타임 10분의 영상을 제작할 경우 기존에는 실제 촬영을 위한 사전 작업을 제외하고도 촬영 진행과 편집을 위해 4명 이상의 인력과 4시간 이상의 제작 시간이 필요했지만, 라이언로켓의 기술을 이용하면 실제 촬영을 진행하지 않고도 1사람이 10분 정도의 시간이면 완료할 수 있다고 설명했다.
AI 앵커/기자, 비대면 예배, AI 교사, AI 의사 등 다양한 활용이 가능하며, 실제 2020년 21대 총선의 MBC 개표 방송에서 라이언로켓의 기술을 이용한 개그맨 김경식, 최양락, 성우 서혜정 등의 셀럽들과 이낙연, 황교안 등 각 당대표들의 AI 캐스터를 활용해 중계한 바 있다.
최근에는 안중근 의사 서거 111주년 추모 영상을 제작해, 안중근 의사가 국기에 대한 맹세를 낭독하고 안중근 의사의 유언으로 알려진 글을 낭독하는 것을 재현하기도 했다.
◆ 원하는 가상 인물 제작에서 아이돌까지 펄스나인
펄스나인은 실사형 가상 인물 이미지를 생성하고 합성해 콘텐츠를 제작하는 AI 서비스 스타트업으로, 딥페이크 기술을 응용한 자체 ‘딥리얼 AI’ 기술로 AI 기반 가상 인물 이미지를 생성하고 직접 촬영한 영상과 합성해 만든 콘텐츠를 제공하고 있다. 인종, 남녀노소 구분 없이 실제와 같은 얼굴을 만들고 타깃 영상 얼굴의 시선처리를 참조해 가상 인물의 움직임을 제어한 실감나는 영상 콘텐츠를 만들어 낼 수 있다.
최근에는 ‘딥리얼 AI’ 기술로 ‘AI가상프로젝트걸그룹 이터니티(Eternity)’를 발표하기도 했다. 이터니티는 펄스나인의 AI 기반 가상 인물 이미지 제작 및 영상 합성 기술을 이용해 만들어진 101명의 후보 소녀 영상에서 국민투표를 통해 상위권을 차지한 11명의 가상 소녀들로 이루어져 있다. 3월 22일 첫 싱글 앨범 ‘I’m Real’을 발표하는 등 본격적인 활동을 시작했다.
이터니티 싱글 뮤직비디오 공개에는 테크/트렌드 미디어 뉴즈(대표 김가현)에서 모바일 비디오 플랫폼 틱톡라이브로 소개하며 힘을 실었다. 뉴즈는 이터니티 캐릭터 기획 및 컨텐츠 구축 등 기획단 협업을 함께 해온 바 있다. 펄스나인에서는 뮤직비디오 공개 이틀 만에 유튜브 누적 조회수 18만 뷰, 댓글 2,400개 이상의 뜨거운 반응을 모았다고 밝혔다.
◆ AI 음성 합성 기술 스타트업 네오코믹스
네오코믹스 또한 벤처스퀘어가 투자한 스타트업이다. AI 콘텐츠 전문기업으로 AI음성합성, AI음성인식, AI아바타 등 다양한 AI 기술을 접목해 콘텐츠를 만들고 있으며, AI 음성합성 기술을 이용해 실시간 AI 뉴스스트리밍 서비스, AI 오디오북 플랫폼, AI 오디오북 자동생성 시스템 등을 서비스하고 있다.
네오코믹스의 AI음성합성 기술의 오디오북 서비스를 이용하면 원하는 성우의 목소리로 소설책 등 원하는 문서의 내용을 읽어주는 음성파일을 만들어 감상할 수 있다.
그리고 페이크영상 관련으로도 기술을 보유하고 있어서, 페이스투페이스 인터폴레이션 엔진을 이용해 1장의 얼굴 이미지 만으로도 표정을 변화시켜 애니메이션으로 제작 가능하다. 원한다면 본인의 사진 1장만 등록해도, 본인이 여러가지 표정으로 직접 이야기하는 다양한 영상 제작이 가능하다.
◆ 우려와 기대 속 ··· 앞으로의 딥페이크
기술의 발전에는 명과 암이 함께 드러나기 마련이다. AI에 의한 세계 지배 같은 영화 속 우려를 치우더라도, 당장 딥페이크의 경우 기술적, 경제적 부담이 적어 쉽게 만들 수 있는 장점이 오히려 디지털 범죄에 쉽게 악용되는 단점이 되고 있다. 물론 이런 악용을 막기 위한 목소리와 노력은 이어지고 있고, 페이스북에서 딥페이크 영상을 걸러내는 시스템을 도입하거나, 우리나라의 경우 2020년 성폭력처벌법 개정으로 통해 관련 규정을 신설하는 등 처벌 방안도 만들어지고 있다.
이후 딥페이크는 이미지, 음성, 영상 제작에서 빠지기 힘든 기술이 될 것이다. 칼도 부엌에서 쓰면 꼭 필요한 좋은 요리 도구가 되듯이 이들 스타트업들의 노력이 결실을 거두어 딥페이크를 활용한 좋은 사례들이 계속 늘어나기를 기대한다.