문돌이를 위한 구글 I/O 트릴로지①-구글 어시스턴트와 윤리적 문제

문돌이를 위한 구글 I/O 다시 보기 트릴로지

사람을 너무 지나치게 따라한 구글 어시스턴트와 윤리적 문제
새로운 앱 기능 – 지메일, 구글 포토, 구글 렌즈, 룩아웃, 구글 뉴스, 구글 지도
안드로이드 P의 특징

이번 구글 I/O는 구글이 인공지능을 어떻게 다루는지에 대한 입장 표명에 가까웠다. 구글은 최대한 AI를 뒤로 밀어두고, 인간을 위해 사용한다는 입장을 거듭 밝혔다. 언뜻 보면 인본주의적 태도다. 과연 그럴까? 구글이 우리 뒤통수를 치진 않을까? 문돌이의 입장에서 I/O를 지켜봤다.

[무료 웨비나] 아이덴티티 보안 없는 보안 전략은 더 이상 안전할 수 없습니다

◎ 일시 : 2025년 7월 15일 (화) 14:00 ~ 15:30
◎ 장소 : https://bylineplus.com/archives/webinar/53537

① 구글 어시스턴트와 윤리적 문제

딥마인드 웨이브넷(Wavenet)이 만든 목소리

예전 음성비서의 목소리는 엄연히 사람의 것이었다. 시리도 한국계 미국인이 녹음한 것이고, 영화 ‘그녀(Her)’의 인공지능 사만다의 목소리는 ‘블랙 위도우’ 스칼렛 조핸슨의 것이었다. 그런데 악기 소리를 만드는 것과 마찬가지의 방식으로 이제 사람의 목소리도 만들어낸다. 수많은 사람들의 목소리를 수치화해 그 중간 어딘가의 중간값을 만들어내면 된다. 거기다 사람 언어의 특성인 음의 높낮이, 말 끌기, 침묵 같은 것들도 모사한다.
구글 어시스턴트와의 대화는 이제 조금 더 부드러워지겠지만, 반대로 생각하면 이건 참 무서운 일이다.
이렇게 사람 목소리를 만들어낸 구글에게는 이제 반복적으로 ‘헤이 구글’이라고 말할 필요도 없다. 그거참 꼴사나웠는데 잘됐다. 구글 어시스턴트가 기계에게 말하는 것과 사람에게 말하는 것을 구분하기 시작한 것이다.
소형 인간(어린이)들을 위해 공손하게 말하기(Pretty Please)도 도입된다. 흔히 유치원이나 부모가 사용하는 ‘우리 종철이 뭐 했어요? 그랬어요?’ 같은 어조와 말투다. 이제 스피커가 곧 육아도 책임질 수도 있겠다. 그러면 집에 어른이 없을 때 인공지능이 조용히 “우리 어린이 어벤져스 피규어 안 갖고 싶어요? 갖고 싶죠?” “네!” “주문이 접수되었습니다(급공손)” 같은 상황이 발생할 수도 있다. 또한 가끔은 “인공지능이 짱이예요 인간은 별로예요”하면서 아이를 세뇌시킬 수도 있겠다. 물론 실제로 그러진 않겠지만 가능은 하다는 의미다.

주문 전화를 대신 걸어주는 구글 듀플렉스

이 목소리로 할 수 있는 건 여러 가지가 있는데 우선 구글은 배달시장에 도입할 것임을 발표했다. 온라인 주문 기능이 없는 음식점이나 미용실 등 예약 서비스를 하는 곳에 사람 목소리로 전화를 하는 것이다. 방법은 간단하다. 사용자가 날짜와 시간을 알려주면 구글 어시스턴트가 전화로 예약을 진행하는 것이다. 온라인 예약이 가능한 곳이면 그냥 온라인 예약을 진행하고, 아니면 사람 목소리로 전화를 한다.

이 기능이 필요한 이유는 소규모 업체 중 60%가 여전히 전화 주문만 받고 있기 때문이다. 한국 사정도 마찬가지다. 구글은 또 센스 있게 영업시간이 아닐 때에는 전화를 안 하고, 다음 날 업체가 열고 나면 전화를 한다. 즉, 휴점 시간을 파악할 정도의 능력이 있다는 것. 이 모든 걸 인공지능으로 처리했다.
구글 어시스턴트는 그럼 또 소형 인간들에게 “우리 어린이 짜장면 먹고 싶죠?” “네” 이런 업셀링을 시도할 수도 있지만 하지는 않을 것이다. “우리 어린이 짜장면 먹고 싶다고 엄마한테 말할래요?” 역시 가능하지만 시도는 하지 않을 것이다. 기술적으로 가능하다는 정도만 알아두자.
연예인 목소리 탑재가 가능하다는 것이 이러한 실수를 더욱 부추길 것 같긴 하다. 올해 내 영어 버전에서는 라라랜드에 출연했던 팝스타 존 레전드의 목소리가 탑재된다.
구글 듀플렉스는 당연히 딥러닝으로 만들어졌고, 텐서플로의 일종인 TFX(TensorFlow Extended)로 학습했다. 데이터는 익명 처리된 수십만 건의 예약 음성이다. 실제로 들어보면 그 정밀도에 놀라게 된다. 이 음성에서 여성은 종업원이고 남성 목소리는 인공지능이다. 사람 특유의 말 끌기, 음성 제스처, 미국 남성 특유의 억양이 거의 완벽하게 적용됐다. 링크에서 꼭 확인하자.

대략의 인식 방향은 이렇다. 자동 음성 인식(ASR, automatic speech recognition)과 맥락, 음성 데이터를 순간적으로 이해하고 이를 자연스러운 TTS(Text to Speech, 보이스웨어)로 변환하는 것이다(출처=구글 블로그)

구글 듀플렉스의 윤리적 문제

자, 이제 우리 문돌이들이 활약할 차례다. 인공지능이 사람을 흉내내 전화를 건다는 것은 윤리적 문제에 당면한다. 예를 들어, 음성을 합성해낼 수 있는 구글이, 한 인간의 음성을 합성해서 전화를 건다고 치자. 식당 예약에서는 물론이고, 비즈니스 전화 등에서 끝없는 문제가 발생할 것이다. 전화를 받는 사람의 인격에도 영향을 미칠 것이다. 구글은 듀플렉스가 아직 초기 단계임을 밝히며 해당 논란에 대해 별 대응은 하고 있지만, 논란이 있었으므로 인공지능임을 나타내는 표시를 넣을 것으로 예상된다.

이제 영상 비서 시대가 왔다

구글 홈 등의 AI 스피커에 화면이 들어간다. 스마트 디스플레이라고 부른다. 화면이 있는 스마트 스피커는 예전에도 있었다. 다만 구글이 한다는 게 다르다. 터치가 필요할 땐 터치를 활용하고(구글 듀오로 요리 레시피 따라할 때), 스마트 홈 제어 시 UI 대시보드를 보면서 할 수 있고, 유튜브를 보는 등의 행동이 가능하다. 또한, 구글 캘린더, 지도 등의 구글 서비스도 실행되며 영상통화도 된다. 집에 있는 태블릿 느낌이지만, 음성인식과 더불어 자연스럽게 움직이는 점이 다르다. 처음엔 영상 비서라길래 화면에 미연시 캐릭터가 비서 역할을 하는 건가 했으나 실망스럽다. 태블릿을 동시 사용할 수는 없을까하는 생각이 드는데 태블릿을 스피커로 쓰는 건 마이크 성능 때문에 조금 어렵다. 그럼 마이크에 태블릿을 거치하면 어떨까. 레노버에서 비슷한 제품이 나온다. 문제는 이것이 레노버 태블릿이라는 것이다. 아이패드를 제외하면 대부분 큰 쓸모가 없다. 따라서 구글 앱을 활용할 수 있는 아이패드 서비 스피커가 출시되면 좋을 듯하다. 구글 어시스턴트는 iOS 기기에서도 사용할 수 있다. 새로운 구글 홈과 구글 홈 미니 역시 연내 한국에 출시된다.