[그게 뭔가요]30년 묵은 ‘온톨로지’, 왜 다시 관심받나요?

생성형 AI의 등장은 기존의 AI 연구에 많은 영향을 미쳤습니다. 예를 들어 생성형 AI 시대에는 방대한 비용과 시간을 필요로 하는 온톨로지를 만들 필요가 없다는 이야기가 나옵니다. 이전에는 ‘온톨로지(Ontology)’를 만들어야 컴퓨터가 인간의 지식을 이해할 수 있다고 생각했습니다.

온톨로지는 단어와 단어의 관계, 개념과 개념의 관계 등을 체계적으로 정리해 놓은 지식사전이라고 볼 수 있습니다. 예를 들어 “집에 과일 있나?” “냉장고에 추석 선물로 들어온 사과 있어”라는 대화를 컴퓨터가 이해를 하려면 과일이라는 개념 아래에 사과, 배, 귤, 감 등이 있다는 것을 알아야 합니다. 컴퓨터는 이런 지식이 없기 때문에 사람이 미리 개념간 관계를 정의해 놓아야 합니다.

하지만 인간의 지식을 하나하나 체계적으로 정리한다는 것은 사실상 불가능한 일에 가까웠다고 볼 수 있습니다. 사람의 지식은 워낙 방대하고 사람 스스로도 명확히 체계나 구조를 명확히 정의하기 힘든 개념들이 많기 때문입니다.

그러다가 생성형 AI가 등장한 이후 ‘온톨로지’의 필요성이 줄었습니다. LLM(대형 언어모델)은 사람이 따로 온톨로지를 정의하지 않아도, 모델 내부에서 자동적으로 ‘의미론적 거리’와 ‘개념적 유사성’을 표현하고 있습니다.

언어모델은 단어, 문장, 개념을 고차원 벡터 공간에 숫자로 표현(embedding) 합니다. 이때 벡터 간의 거리 혹은 방향(angle)이 개념 간의 의미 유사성을 나타냅니다. 이 숫자를 수학적으로 계산하면 “왕:남자 = 여왕:여자” 같은 통계적 의미 관계 같은 의미를 포착할 수 있습니다.

물론 완벽한 것은 아닙니다. 벡터 간의 거리가 비슷하다는 건 그 두 단어가 비슷한 문맥에서 많이 등장했다는 뜻일 뿐, 철학적으로 ‘의미가 같다’는 게 아닙니다.

‘커피’와 ‘컵’은 벡터 거리상 가깝습니다. 문장에서 함께 자주 등장하기 때문이죠. 하지만 논리적으로 “커피는 컵이다”는 잘못된 명제죠. 현재의 LLM 구도에서는 이런 오류가 나올 수 있습니다.

이런 한계가 노출되자 다시 ‘온톨로지’의 필요성에 대한 이야기가 나옵니다. 생성형 AI 시대에도 온톨로지가 보완재로 필요하다는 이야기입니다. 최근 국내 AI 업체 솔트룩스와 같은 회사들은 ‘온톨로지’의 필요성을 강하게 주장하고 있습니다.

온톨로지 유래와 기초 개념

‘온톨로지(Ontology)’, 처음 들었으면 무슨 말인지 전혀 감이 오지 않는 단어입니다. 무슨 뜻인지, 사전을 찾아보니 “사람들이 세상에 대하여 보고 듣고 느끼고 생각하는 것에 대하여 서로 간의 토론을 통하여 합의를 이룬 바를, 개념적이고 컴퓨터에서 다룰 수 있는 형태로 표현한 모델로, 개념의 타입이나 사용상의 제약조건들을 명시적으로 정의한 기술이다”라는 긴 문장이 나옵니다.

아이쿠, 애초에 철학적 개념에서 시작한 용어입니다. 그리스어 기반이라 영어로 써져 있어도 의미 파악이 어렵습니다.

온톨로지는 ‘존재론’이라는 뜻입니다. 고대 그리스에서 아리스토텔레스와 같은 철학자들이 사물의 존재 의미를 탐구하던 것에서 유래했습니다. 철학적 개념으로는 수천년 역사를 갖습니다.

그러다가 1990년대 들어, 온톨로지 개념을 컴퓨터 과학 분야에 적용하기 시작했습니다. 인간이 가진 전문적인 지식을 컴퓨터가 이해할 수 있는 형태로 표현하는 방법이 필요했거든요. 이를 ‘지식 표현’이라고 합니다.

기계는 데이터를 받아들이지만, 그 데이터를 인간처럼 이해하거나 추론하는 능력이 없었습니다. 그렇기에 인간 전문가가 가진 지식을 컴퓨터가 알아들을 수 있는 형태로 구조화하는 과정이 필요했고, 연구자들은 인간이 세상을 바라보는 방식과 유사하게 지식을 구조화하려고 했습니다. 그 핵심 요소는 ▲개념(Concept) ▲속성(Property) ▲관계(Property)입니다.

예를 들어, “바이라인네트워크는 대한민국의 언론사입니다”란 문장을 보면 인간은 바로 이해합니다. 바이라인네트워크는 ‘이름’이고, 대한민국 소속 관계에 있고, 산업으로는 ‘언론’에 속하는구나. 하지만, 컴퓨터(기계)는 이를 바로 이해하지 못하기에, 하나씩 정의하기로 한 겁니다. 대한민국은 아시아에 있는 나라고, 언론사는 무엇이고, 기업이란 무엇이고, 기타 등등을요.

그렇게 개념들 간 포함 관계를 정의하면서 계층을 만듭니다. “1. 대한민국은 아시아의 국가이다. 2. 아시아는 대륙이다. 3. 대륙은 지구의 …”처럼요. 자, 그럼 개념은 정의됐습니다. 속성은 무엇일까요? 속성은 개념을 좀 더 상세하게 설명하는 ‘형용사’ 같은 역할을 합니다.

예를 들어, 사람이라는 개념은 이름, 성별, 나이와 같은 속성을 갖습니다. 질병이라면 전염 경로, 잠복기, 치사율과 같은 속성이 있습니다.

그렇다면 관계는 어떤 역할을 할까요? 개념과 개념 사이를 연결해 줍니다. 맥락을 만들어주는 ‘동사’ 역할입니다. 추론하기 위해 가장 중요한 역할을 합니다. 예를 들면, “[독감(질병)]은 [고열(증상)]을 유발한다”, “[의사]는 [약물]을 [환자]에게 처방한다”와 같이 개념들을 연결합니다.

이제 컴퓨터는 규칙만 부여하면 문장을 이해할 수 있게 됩니다. 즉, “만약 환자의 체온이 38도 이상이고 기침 증상을 보인다면, 독감일 확률이 높다”와 같은 규칙을 추가하면, 컴퓨터가 이해할 수 있는 지식 집합체 ‘지식 베이스’가 생깁니다.

이 접근 방식은 온톨로지와 지식 그래프 기술로 이어졌습니다.

시맨틱웹의 표준 기술, 온톨로지

시맨틱웹(Semantic Web)의 개념이 새롭게 등장합니다. 월드 와이드 웹(WWW)으로 웹상의 정보는 차고 넘치게 됩니다. 하지만 컴퓨터는 웹상의 의미를 이해하지 못했죠. 월드 와이드 웹을 만든 팀 버스너리가 제안한 ‘시맨틱 웹’은 지능형 웹입니다. 컴퓨터가 웹상의 데이터 의미를 이 해하고 정보를 처리할 수 있는 웹이죠.

모든 데이터에 ‘의미(Context)’를 부여하면 시맨틱 웹은 거대한 데이터베이스(지식 베이스)가 됩니다.

방법으로는 웹 페이지나 세상에 존재하는 모든 개념과 사물에 고유한 주소(URL)을 부여합니다. 그리고 모든 지식과 데이터를 ‘개념(주어)-서술어-목적어’ 형태로 표현합니다. 이를 RDF라고 하고요, 데이터 표현의 기초가 됩니다. 그런데 이렇게 개별적인 사실을 하나하나 표현했지만, RDF는 벽돌처럼 쌓아두기만 합니다. 개념-서술어-목적어로 연결은 해뒀는데, 연결됐다는 것만 이해합니다.

이제 쌓아둔 벽돌들을 어떻게 쌓아야 하고, 무슨 의미인지 알려면 설계도가 필요합니다. 여기서 설계도는 온톨로지입니다. 데이터의 의미와 구조를 정의해서, 컴퓨터가 데이터를 해석하고 추론할 수 있는 기반을 제공합니다.

조금 복잡하지만, RDFS(RDF Schema)는 용어를 정의하고 계층 관계를 만듭니다. OWL(Web Ontology Language)는 RDFS보다 강력한 논리 규칙과 제약 조건을 추가합니다. RDFS가 “[가수]는 [직업]의 하위 클래스”라고 정의하면, OWL은 “[가수]와 [보컬리스트]는 같은 클래스”라고 정의합니다. 이렇게 설계도를 만들어두면, 컴퓨터가 RDF만 보고도 추론할 수 있게 됩니다.

시맨틱 웹을 구현하기 위해 체계적인 표준 기술로 온톨로지가 자리 잡습니다. 여기서 지식 그래프라는 요소가 등장하고, 좀 더 직관적인 이름 덕분에 인지도가 높아집니다.

다른 관점에서 접근한 생성형 AI

AI 연구는 크게 두 가지 흐름으로 발전했습니다. 기호주의(Symbolic)와 연결주의(Connectionism)입니다. AI가 학습하는 방식을 두고 관점이 갈린 건데요.

기호주의는 인간의 지능을 세상의 기호(Symbol)로 표현할 수 있고, 그 기호들은 논리적인 규칙에 따라 움직인다고 봅니다. 컴퓨터에게 세상을 이해시킬 때, 명확한 규칙과 논리를 인간이 정의해주는 방식입니다.

대표적으로 온톨로지와 지식 그래프 기술이 기호주의를 따라 발전했습니다. 정확하고 논리적이기 때문에 명확한 설명이 가능하다는 장점이 있습니다. 하지만, 현실 세계의 복잡하고 애매한 지식을 모두 사람이 정의하기에는 한계가 있죠. 규칙이 없는 예외 상황에는 대처할 수 없고, 지식 베이스를 구축하는 데에도 많은 시간과 비용이 듭니다.

생성형 AI는 연결주의 관점에서 탄생했습니다. 인간의 뇌는 무엇으로 연결되었을까요? 뉴런입니다. 따라서 지능은 뇌의 뉴런처럼 수많은 연결들로 이뤄져 있고, 이들이 상호작용하며 패턴을 학습할 수 있다고 봤습니다. 컴퓨터에 명확한 규칙을 부여하는 대신, 방대한 양의 데이터를 쏟아붓습니다. 그리고 컴퓨터가 ‘알아서’ 통계적 패턴을 찾고 학습하게 만드는 방식입니다.

그 결과, 생성형 AI가 탄생합니다. 규칙이 없는 애매모호한 패턴도 잘 학습합니다. 텍스트나 이미지도 처리하고, 말도 잘합니다.

예를 들어, 생성형 AI는 “점심에 밥을 [ooo]”라는 문장에서 [ooo]을 추측한다면, “먹는다”라는 단어가 올 확률이 높다는 걸 통계적으로 예측할 수 있습니다. 정확한 사실인지 아닌지는 모르나, 확률이 높으니까 맞추는 거죠. 정제되지 않은 방대한 데이터를 학습하면서 생성형 AI는 스스로 규칙을 배웠습니다.

그런데 여기서 문제가 하나 생깁니다. 바로 ‘환각’ 현상입니다. 환각 현상은 챗GPT와 같은 생성형 AI가 잘못된 정보를 답하는 현상인데요. 생성형 AI와 같은 대규모언어모델(LLM)은 무엇이 사실인지 아닌지 구분하지 못했습니다. 모르는 정보를 물어보거나 최신 정보를 물어봤을 때, 없는 데이터베이스에서 ‘그럴듯한, 확률이 높은’ 아무 정보나 쏟아낸 겁니다.

결국 생성형 AI로는 모든 걸 해결할 수 없었습니다. 그렇게 기호주의와 연결주의는 서로의 단점을 보완하는 방향으로 다시 만나게 됩니다.

좌뇌와 우뇌처럼 연결한 신경-기호주의 등장

최근 신경-기호주의(Neuro-Symbolic)라는 개념이 연구되고 있습니다. 생성형 AI와 온톨로지를 융합하려는 연구입니다. 우리 뇌가 좌뇌와 우뇌로 나뉘어져 있는 것과 비슷합니다. 좌뇌가 논리적인 영역(기호주의적 추론)을 담당한다면, 우뇌는 이미지, 패턴 인식, 학습 등 영역(신경망)을 담당합니다.

생성형 AI에 부족한 논리와 지식을 기호주의로 채우려는 노력입니다. 대표적인 사례로 검색증강생성(RAG)이 많이 쓰이고 있습니다. 주로 기호주의 시스템에서 쓰이는 지식 그래프, 온톨로지 등을 보조 도구로 활용하는 방식입니다.

아기가 말을 배울 때, 사람이 하는 말들을 듣고 따라하는 방법으로 학습했을 겁니다. 글자를 읽어도 무엇인지 모르지만, 사람이 하는 음성(말)은 따라할 수 있었으니까요. 그런데 나이가 좀 더 드니, 정확하게 소통하는 것에 한계가 생깁니다. 지식도 배우고, 그 지식이 맞는지 확인할 수 있는 ‘책’이 필요합니다. 그 책은 세상의 규칙을 저장하고 있는 ‘온톨로지’로 비유할 수 있습니다. 아이(생성형 AI)는 상대의 질문에 책(온톨로지)를 참고해서 더 정확한 답을 할 수 있게 됩니다.

이 두 가지가 상호 보완적인 시너지를 내면서, 더 정확한 답을 내놓는 AI를 만들 수 있게 된 거죠. 결국 온톨로지가 다시 주목받는 이유라고 볼 수 있습니다.

글. 바이라인네트워크
<최가람 기자> ggchoi@byline.network