위의 사진은 학창시절 외워봤을 법한 황진이의 시조를 필사한 청구영언의 원본이다. 이는 나중에 또다른 필사본이 됐고, 1928년 활판으로 인쇄됐으며, 1966년 시조문학사전에도 실렸다. 현재 이 글자들은 디지털화돼있다. 그렇다면 원본이 확실치 않은 시조들은 어떻게 디지털화할 수 있을까?

한자 옆 가사를 한글로 적어놓았다

위 사진을 보면 글자 인식은 OCR로는 불가능한 것임을 알 수 있다. 시조는 문학이기 이전에 노래로 불렸기 때문에, 한자 가사를 한글로 옮겨적은 흔적이 있다. 줄이 잘 맞지 않고 글씨 자체도 알아보기 어렵다.

서강대학교 웨인 드 프레메리 교수

서강대 국제한국학과 웨인 드 프레메리 교수는 이러한 글자들을 디지털화하는 ‘프로젝트 Mo文oN’을 진행한다. 데이터를 이해하고 글자를 학습하는 방식은 일반적인 딥러닝과 같다. 데이터셋을 주고 데이터가 어떤 글자인지를 가르친 다음 동시대의 다른 고문서들을 읽어내고 이를 데이터화하는 것이다. 인코딩은 유니코드로 해서 숫자로 번역한다. 드 프레메리 교수는 “앞으로 한자를 읽을 수 있는 사람은 더 줄어들 것이니 지금이 빠르게 디지털화해야 할 시기”라고 말했다.

유니코드로 변환하면 이렇게 된다


[AD] 멀티 클라우드 데이터 관리를 위한 베리타스의 전략을 살펴보세요

이 시조는 유니코드로 디지털화되고, 그 유니코드를 기반으로 번역돼 영어로 만들어진다. 그리고 글자와 글자 간 관계를 3D 모형으로 비주얼라이제이션할 수도 있다. 시각화 역시 유니코드를 기반으로 한다. 글자와 글자 간 관계, 띄어쓰기, 줄 바꿈 등의 데이터를 모두 포함한 형태다.

딥러닝 회사에서 흔히 보여주는 이미지

번역한 시조를 3D로 만들 수도 있다. 다만 유니코드에서 영어가 차지하는 수는 많지 않아 한자와 한글보다는 단순한 형태로 도출된다. 한자는 유니코드 안에서 가장 많은 글자 수를 갖고 있고, 그다음이 한글이다. 한글은 조합에 따라 1만1000자를 만들 수 있으며, 시대에 따라 형태가 달라서 경우의 수는 더 늘어난다.

유니코드를 3D 모델링으로 변환한 모양, 하단에 실제 출력 모델이 있다

이렇게 만든 모델링은 3D 프린터로 출력할 수 있다. 드 프레메리 교수에게 반대로 3D 출력 모델을 QR 코드처럼 입력용으로 쓸 수 없냐고 물었더니 “가능은 하지만 출력물 수준에 따라 다르다”라고 했다. 만약 3D 프린터가 저가로 더 정확한 모델을 뽑을 수 있다면 여러 부분의 사진을 찍어 QR코드처럼 사용할 수도 있다는 것이다. QR코드는 단순 링크를 주지만 그 모델링들은 시조의 역사나 유니코드, 디지털화된 방식 등도 보여줄 수 있을 것이다. 조금 미래의 이야기다.

이 데이터는 단순히 황진이의 시조를 기록한 것이 아니라 글자와 글자와의 관계, 훈민정음과 현대 한글의 차이, 변화과정, 필사본에서의 오타 등 다양한 데이터를 담고 있다. 시각화하면 예술 작품을 만들 수도 있다. 즉, 시조 자체의 가치부터 한글의 변화까지 역사책에 없는 역사를 담을 수 있는 것이다. 드 프레메리 교수는 “씨게이트와 협업해 다양한 문헌을 저장하고 머신러닝으로 분석해, 종래에는 학자들이 연구할 수 있는 디지털화된 고문헌 데이터베이스를 구축하고자 한다”고 전했다. ‘프로젝트 Mo文oN’은 드 프레메리의 연구 팀만 사용하도록 만든 것은 아니며, 다른 고문서나 읽기 어려운 것들을 읽어내고 활용할 수 있는 AI·솔루션 제작 도구이며, 분석 엔진과 해석 디자인 도구를 포함하고 있다.

녹다가 다시 붙은 킷캣 같지만 황진이의 시조를 담고 있다

주름이나 돌출부 역시 데이터를 담고 있는 형태다


[AD] 금융권을 위한 멀티 클라우드 애플리케이션 서비스 전략

이 프로젝트는 스토리지 제조 업체인 씨게이트가 지원하는 것이다. 이유는 AI로 글자를 분석하는 과정에서 대량의 데이터가 발생하기 때문이다. 텍스트 자체는 20메가 수준으로 가볍지만, 모델링으로 만들면 500메가, AI가 분석하는 데는 그것보다 훨씬 더 큰 데이터가 발생했다가 사라진다. 따라서 데이터를 많이 남을 수 있는 스토리지가 필요하다. 10월 9일까지 삼청동 코너갤러리에서 전시한다.

씨게이트는 ‘프로젝트 Mo文oN’과 같은 다양한 프로젝트에 스토리지를 지원한다. 프로젝트 이름은 ’Data for Good’이다. 2015년부터는 국제 비영리단체 싸이아크(CyArk)를 지원하고 있다. 싸이아크는 점차 사라지고 있는 전 세계 유적지의 디지털 쌍둥이를 만들어 기록을 남기고 디지털 복원을 하는 업체다. 이 과정에서 다양한 사진과 영상, 캐드 파일 등이 사용된다. 현재 피사의 사탑, 타이타닉, 시드니 오페라 하우스 등이 디지털 복원된 상태다. 오페라 하우스처럼 원본 그대로 디지털 쌍둥이를 만들었으면 좋았겠지만, 지은 지 오래되서 약간은 훼손된 상태의 문화재를 더 이상 훼손되지 않도록 하는 활동이다.

비슷한 사례로, 오스트레일리아의 세계 최대 산호초 지대 ‘그레이트 베리어 리프(Great Barrier Reef)’를 지키기 위한 그레이트 베리어 리프 레거시 연구 작업에도 씨게이트의 지원이 들어간다. 이들 업체에게는 씨게이트 NAS와 러기드 모바일 하드 드라이브가 제공된다. 편리하게 혹은 혹독한 환경에서도 사용할 수 있게 한다는 의미다.

황진이의 <청산리 벽계수야>는 이제 불타 사라지지도, 어딘가에 빼앗기지도 않는 영원한 생명을 얻었다.

<청산리 벽계수야>의 세 형태

 

글. 바이라인네트워크
<이종철 기자> jude@byline.network