‘융합’에서 찾는 공공 데이터의 가치

10일 <데이터기반행정 활성화에 관한 법률>이 시행됨에 따라 정부 기관마다 산발적으로 추진해오던 데이터 기반 행정에 대한 범정부적 추진체계가 마련된다. 행정안전부의 평가에 따르면 공공기관 간 데이터 공동 활용 절차가 구체화돼 데이터의 활용성은 높아진다. 행정안정부는 데이터 통합 관리 플랫폼을 구축하여 데이터의 수집과 저장, 가공, 분석, 시각화 등 데이터기반행정을 종합적으로 지원한다는 계획이다. 이번 법령 시행으로 오랫동안 지적돼왔던 정부부처, 기관별로 파편화된 데이터 관리를 함으로 생겼던 데이터의 병목이 해소될 수 있을지 업계의 기대감이 모인다.

김학래 중앙대 문헌정보학과 교수는 10일 오픈데이터포럼이 주최한 <2020 모두의 오픈데이터 포럼> 행사에서 지금까지 정부 부처간 추진해온 데이터 플랫폼의 연계는 미흡했다고 평가했다. 그에 따르면 행정안전부가 공공 데이터의 개방과 관리를 위한 법률, 관리지침, 가이드라인을 제공해온 것은 맞다. 공공기관의 데이터 개방과 관리체계가 수립돼 있는 것도 맞다. 하지만 데이터 플랫폼 사이의 상호운용을 위한 지침은 부족했다는 게 김 교수의 평가다.

김 교수에 따르면 문제는 구조화되지 않은 데이터에서 발생한다. 정부에서 개방하는 공공 데이터가 구조화돼있지만, 실체는 구조화돼있지 않은 데이터가 많았다는 평가다. 이런 비구조화된 데이터에 대한 관심이 필요하다는 게 김 교수의 지적이다.

예컨대 식품의약품안전처는 지난 2월 27일 공적 마스크 공급 시작일을 기점으로 <공적마스크 공급현황>을 이미지 파일 형태의 데이터로 발표해 왔다. 이미지 파일은 대표적인 비구조화된 데이터다. 만약 이 데이터를 누군가가 활용하고 싶다면 식품의약품안전처가 데이터를 개방한 시점부터 지금까지 매일매일 이미지를 다운로드 받아서 수기로 숫자를 시스템에 옮기는 작업을 해야 한다. 이런 데이터는 정책의 연속성 측면에서는 잘 제공됐지만, 대표적인 기계가 처리할 수 없는 데이터라는 김 교수의 평가다.

식품의약품안전처가 발표하고 있는 마스크 공적판매 수급상황 발표 데이터. 이미지 파일 형태로 열람 가능하다.

김 교수는 “데이터를 사용하고자 하는 전체적인 맥락에서 보면 우리나라는 아마 공공 데이터 영역에서 가장 선도적이고 어려운 길을 걸었다고 본다”며 “아쉬운 것은 공공 데이터를 범정부 측면에서 다뤄서 더 빠르게 각 정부 부처가 협업, 발전시킬 수 있음에 불구하고, 많은 데이터가 파편화돼 서로 다른 정부부처와 기관별로 다루는 현상이 있었다”고 평했다.

데이터의 연결을 위해 필요한 것

공공 데이터뿐만 아니라 모든 데이터를 개방해서 활용하는 단계로 넘어갈 때는 서로 합의한 ‘규칙’이 필요하다는 게 김 교수의 지적이다. 김 교수가 말하는 규칙의 범위는 메타 데이터부터 시작한다. 메타 데이터를 기준으로 비교해서 개방에 따른 규칙과 가이드라인을 마련할 필요가 있다는 설명이다. 예컨대 인공지능 학습 데이터는 과학기술정통부가, 공공 데이터는 행정안정부가 다루는 형태가 아닌 범정부 차원에서 메타 데이터를 관리하는 체계를 마련할 필요가 있다는 것이다.

김 교수는 규칙을 만드는 방법으로 ‘상호운용성’을 제시했다. 상호운용성이란 서로 다른 개체가 데이터와 시스템에서 소통하고 상호 정보 교환을 할 수 있는 능력을 뜻한다. 데이터 수준에서 상호운용성을 만들기 위해서는 서로 다른 데이터셋 사이의 운용이 가능해야 한다. 데이터의 한 조각이 공개된 다른 데이터와 자유롭게 상호 결합될 수 있어야 한다. 때문에 상호운용성은 ‘공개성’이 핵심이라는 게 김 교수의 의견이다.

상호운용성을 만들기 위해서는 크게 ‘구문적’, ‘의미적’ 수준에서의 규칙이 필요하다. 구문적 상호운용성이란 데이터 표현을 위한 표준, 커뮤니케이션 프로토콜에 대한 합의를 뜻한다. 예컨대 날짜는 ‘두자리 숫자’로, 연도는 ‘네 자리 숫자’로 표기하는 등의 약속을 의미한다. 의미적 상호운용성이란 공통 데이터 모델, 어휘와 표현에 대한 합의를 의미한다. 예를 들어서 ‘날짜’와 ‘일자’는 같은 단어임을 시스템이 인식하도록 약속해야 한다. 결국 상호운용성이 있어야 서로 다른 데이터의 융합이 가능하다는 게 김 교수의 강조사항이다.

김 교수는 “지금까지 우리는 먼저 데이터를 만들어 써보고, 부족하면 그 때 가서 고쳤다. 상호운용을 위한 규칙을 만들고 움직이지 않았다”며 “임시방편으로 데이터를 활용하는 환경을 바꿔보자는 목소리가 커뮤니티를 통해 나오고, 정부가 이를 청취하는 형태의 협업이 앞으로 일어나길 기대한다”고 말했다.

요컨대 공공 데이터는 융합을 통해 가치를 만들 수 있다. 모두가 사용할 수 있는 공개된 정보인 공공 데이터를 단독으로 사용하는 것보다는, 자신만이 가진 데이터를 공개된 데이터에 연결, 융합시킴으로 새로운 인사이트를 도출할 수 있다는 김 교수의 의견이다.

김 교수는 “여러 사람들이 공공 데이터가 필요 없다고 이야기할 때 모두가 똑같은 데이터를 쓰는 상황을 가정한다”며 “하지만 공공 데이터의 가치는 서로 다른 데이터를 누군가가 연결해서 아무도 바라보지 못한 인사이트를 찾을 때 나타난다. 이 때 공공 데이터가 기반 데이터로 역할을 할 것”이라 강조했다.

글. 바이라인네트워크

<엄지용 기자> drake@byline.network

관련 글

첫 댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다