생각보다 가까이에 있는 인공지능 기술들-①포털 편
알파고 때문에 난리다. 구글은 세계 최고수준의 프로 바둑기사를 이기는 인공지능 컴퓨터를 개발했는데 한국(기업)은 뭐했냐는 비판도 있고, 정부는 인공지능(AI) 컨트롤타워를 만든다고 들썩이고 있다.
하지만 한국 기업들이 인공지능이나 기계학습, 딥러닝 등을 외면하고 있던 것은 아니다. 인공지능은 의외로 우리 가까이에 있다. 우리가 매일 사용하는 인터넷 포털이나 온라인 게임 등에는 이미 인공지능 기반의 서비스들이 함께 하고 있다. 우리 실생활에서 사용되는 인공지능 기술을 살펴본다. [기자 주]
네이버는 음성인식, 이미지 자동분류, 기계번역, 감정 분석, 의미 분석, 문서 요약 등의 기술 개발에 딥러닝 기법을 활용하고 있다. 이런 기술은 음성검색, 지식IN, 네이버 클라우드, 자동 번역, 쇼핑, 라인 등의 서비스에 적용돼 있다.
음성 검색을 위해서는 사람의 음성을 인식해 텍스트로 바꿔야 하는데, 이 과정에 딥러닝 기술이 사용된다. 사람이 말할 때 나오는 음파는 개인별로 다 달라서 A음파는 ‘ㄱ’, B 음파는 ‘ㄴ’ C음파는 ‘ㄷ’ 이런 식으로 규정할 수 없다. 이 때문에 수많은 음성 데이터를 제공하고, 컴퓨터가 스스로 음소나 단어를 구별할 수 있도록 학습을 시키는 것이다.
이미지 자동 분류도 마찬가지다. 사람은 강아지 사진을 보면 직관적으로 강아지라고 인식한다. 하지만 컴퓨터는 이런 직관이 없기 때문에 컴퓨터가 강아지를 인식하려면 원래 ‘A, B, C, D 등의 조건에 맞는 것이 강아지’라고 기준을 알려줘야 한다.
문제는 어떤 것이 강아지인지 사람조차도 구체적으로 설명하기 어렵다는 점이다. 다리가 4개 달리고, 꼬리가 있으며, 털이 복슬복슬한 동물이라고 정의해 보면, 고양이도 있고 호랑이도 있고, 사자도 있다. 사람은 강아지를 인식할 때 어려서부터 학습된 직관으로 판단한다.
컴퓨터에게 이런 사람의 직관과 같은 능력을 키우는 것이 기계학습, 딥러닝이다. 사람이 판단 기준을 정해주는 것이 아니라 수많은 데이터를 통해 컴퓨터 스스로 학습하는 것이다. 학습 알고리즘과 데이터를 기반으로 학습을 하다보면 인간이 직관으로 강아지와 고양이를 구별하듯, 컴퓨터도 점차 구별할 수 있다.
네이버는 이 사진 분류 기술을 지식iN과 네이버 클라우드 등의 서비스에 적용했다. 모바일에서 사진을 첨부해 지식인에 질문하면, 인공지능이 사용자의 의도에 맞는 지식인 카테고리를 추천해준다. 네이버 클라우드에 사진을 저장하면 사진 이미지를 인식해 카테고리별로 자동으로 정리해 준다.
기계 번역에도 딥러닝 기술이 적용된다. 인간의 언어는 창조적 특성을 갖고 있기 때문에 DB를 기반으로 1대 1로 치환하는 것이 불가능하다. 또 같은 표현이 상황에 따라 다른 의미로 사용된다.
과거에는 일일이 번역 규칙을 정해주는 방식으로 접근했지만, 최근에는 통계적 방식과 딥러닝 기법을 주로 이용한다. 인간이 모든 규칙을 정해주는 것이 불가능하다는 것을 깨달았기 때문이다.
네이버가 딥러닝을 활용해 개발한 번역기는 지난 2015년 아시아 번역 품질 평가 대회에서 1위를 차지했다.
이외에 자동 문서분류, 문서 요약, 사용자 분류 등의 기술도 딥러닝 기반으로 개발되고 있으며, 이런 기술은 쇼핑 카테고리 분류, 라인 스티커 추천 등에 사용된다.
카카오도 이미지 썸네일 추출이나 꽃검색에 인공지능 기술을 사용하고 있다.
이용자가 카카오 서비스 내 썸네일 이미지를 클릭하면 원본 이미지를 보게되는데, 이 때 썸네일은 가능한 원본 이미지에서 가장 주요한 부분을 보여줘야 한다. 예를 들어 사람이 들어가 있는 사진의 경우 얼굴이 어디에 있는지, 사람은 몇 명이 있는지를 계산하고 그 위치를 파악해 썸네일을 추출하게 된다.
이와 비슷한 기술이 적용된 것이 바로 꽃검색이다. 꽃검색은 이용자가 꽃 사진을 찍어 올리면 자동으로 꽃 이름을 찾아주는 서비스로 현재 다음 T!P(다음 팁) 서비스에서 베타 버전을 적용해 시험 운영 중에 있다.
꽃검색은 국내에서 주로 피는 약 400여 가지 꽃 품종에 대해 카카오가 보유하고 있는 십여만장의 꽃 사진을 수집해, 몇 시간 내로 학습 할 수 있는 딥러닝 시스템을 개발 및 적용했다. 여기에는 다수의 GPU를 사용한 딥 러닝(Deep Learning) 기술이 사용된다.
회사 측에 따르면, 기존의 기술은 이미지로부터 꽃을 나타내는 특징값을 찾아낸 다음, 특징값과 정답을 주고 컴퓨터에게 학습 시키는 두 단계를 거쳤는데, 최신 딥러닝 기술 중 하나인 합성곱 신경망(Convolutional Neural Network)을 적용해 수 많은 꽃 사진과 정답만을 알려 주고 컴퓨터가 알아서 꽃의 특징까지 찾아 학습 할 수 있도록 했다.
스팸 필터링이나 성인물을 자동으로 걸러주는 시스템에도 딥러닝 기술이 적용됐다.
스팸이나 성인 이미지를 제거하기 위한 전처리 작업이 필요한데, 사람이 이러한 검수작업을 진행하기에는 엄청난 인력이 필요하다. 그러나 인공지능 기술을 활용하면 일반 이미지와 스팸/성인 이미지를 분류해 빠른 시간 내에 색인 대상으로 유입되는 이미지들을 분류 처리할 수 있다.
인터넷 업계 한 관계자는 “국내 포털업체들도 몇 년전부터 기계학습 등 인공지능 기술을 연구해 왔다”면서 “아직 알파고 수준에 미치지는 못하지만, 다양한 분야에 활용될 수 있을 것”이라고 말했다.
글. 바이라인 네트워크
<심재석 기자> shimsky@byline.network
[무료 웨비나] API연결만으로 가능한 빠르고 쉬운 웹3 서비스 구축
- 내용 : API 연결을 통해 웹2와 웹3를 끊김 없이 연결하는 최신 융합 기술과 이를 통한 적용 사례를 다룹니다.
- 일시 : 2024년 10월 10일 (목) 14:00 ~ 15:10