정부, ‘초거대AI’ 활용에 팔 걷어…클라우드 최적화 속도

정부가 올해만 4000억원에 달하는 재원을 투입해 초거대 인공지능(AI) 모델의 기반을 마련하기로 했다. 잘 다듬어진 텍스트 데이터를 학습시켜 우리나라 환경에 맞는 초거대 AI 모델을 만드는 데 활용하고, 데이터 확보에 속도를 내기 위해 날것(비라벨링) 데이터도 활용한다. 높은 성능을 구현해 정부와 민간 양쪽에서 활용한다는 목표다. 디지털플랫폼정부(디플정)의 윤곽도 나왔다. 클라우드 네이티브 방식을 적극 도입해 다양한 정부 서비스를 장애 없이 제공하겠다는 계획이다.

과학기술정보통신부(과기정통부)는 최근 대통령 직속 디지털플랫폼정부위원회, 개인정보보호위원회와 함께 ‘초거대 AI 경쟁력 강화 방안’을 발표했다. 우리나라 환경에 맞는 초거대AI 모델 확산이 목표다. 과기정통부는 “세계 최초로 정부 전용 초거대AI를 도입하고, 복지, 민원 업무 전반에 적용해 정부 행정의 품질을 획기적으로 제고할 계획”이라고 밝혔다.

민간 초거대 AI, 정부가 쓴다

주목할 건 초거대 AI 모델을 정부가 구축하는 게 아니라 ‘도입’한다는 표현이다. 학습용 데이터를 정부 차원에서 지원하고, 민간이 이를 제대로 학습시킨 초거대 AI 만들어 나라 운영에 활용하는 형태가 될 것으로 보인다.

정부는 ‘민간 전문영역’과 ‘공공분야’ 투트랙으로 초거대AI를 적용해 업무 효율성을 높이기로 했는데, 전문 분야에서는 법률·세무를 비롯해 ▲의료보조 ▲심리상담 ▲문화예술 ▲학술·연구에 초거대 AI를 활용한다. 공공에서는 반복적인 보고서 초안이나 홍보자료 작성, 민원이나 주민 신고 등 국민들의 문의 상담에도 초거대 AI를 쓰기로 해 활용 범위가 클 전망이다.

데이터 확충 시급 ‘날것 데이터’도 활용

이러한 초거대AI의 성능은 데이터의 품질이 기반이 돼야 하는 건 당연지사다. 이제까지는 라벨링 데이터를 학습에 썼던 것에 더해 텍스트 중심의 비라벨링 데이터를 학습용으로 제공하기로 했다.

라벨링은 아날로그 형태의 데이터를 AI가 학습할 수 있도록 이름표(라벨)를 붙여 디지털화하는 것을 말한다. 라벨링 데이터는 일일이 꼬리표를 붙여야 해 ‘인형 눈 붙이기’에 비유됐다. 예를 들어 어떤 움직이는 물체라면 이에 대해 ‘자동차’라는 꼬리를 붙여 AI를 지도학습시키는 방식이다.

하지만 라벨을 붙이는 데 공수가 많이 들고, 특히 초거대AI 모델은 스스로 학습하는 비지도학습이나 강화학습이 필요해 비라벨링 데이터가 필요하다는 의견이 많았다. 라벨링이 실제 용도에 맞지 않을 수 있고, 다양한 경우의 수에 대응하기에는 일일이 라벨링하는 방식에는 한계가 있어서다.

과기정통부에 따르면 초거대 AI구축에는 정제된 텍스트 300억 토큰 이상이 필요하지만 현재 국내 AI기업들은 약 89억 토큰 정도만 확보해 둔 상황. 이에 책 15만권의 텍스트에 해당하는 200억개 규모의 토큰 데이터를 라벨링과 비라벨링 방식을 병행해 확충한다는 계획이다.

특히 비라벨링 데이터 확충은 범용 서비스를 위한 필요조건이라는 게 전문가의 진단이다. 한 텍스트 생성AI 스타트업 관계자는 “어떤 부처의 업무에 가져 놓아도 사용할 수 있는 ‘멀티 디멘션(Multi-Dimension)’ 차원의 판단으로 보인다”며 “한국어를 더 깊게 학습시켜 활용도를 높이는 방향이라 긍정적으로 본다”고 말했다.

2026년까지 클라우드 네이티브 70% 전환

디지털플랫폼정부위원회는 디지털플랫폼정부 구축 방안을 공개했다. 2026년까지 정부 서비스 1500여개를 통합해 한 홈페이지에서 바로 이용할 수 있는 통합 서비스를 제공하기로 하는 등 정부 서비스의 활용성을 높이는 게 골자다.

기술적으로는 클라우드 네이티브 구현이 눈에 띈다. 디플정위에 따르면 정부 온라인 서비스의 유연성을 살리기 위해 마이크로서비스아키텍처(MSA) 방식을 적극 적용하기로 했다. MSA는 분산 컨테이너 방식을 기반으로 해 서비스 장애가 일어나도 피해를 줄일 수 있고, 유연한 SW 개발이 가능한 장점이 있다. 데이터 이전도 보다 편리하고, 부분적인 업데이트나 새로운 서비스 제공에도 이점이 있다는 게 디플정위의 설명이다.

디플정위 관계자는 “단순히 클라우드에 온프레미스 데이터를 옮기는 ‘리프트 앤 쉬프트 방식’을 지양한다”며 “2026년까지 전체 대상 시스템의 70%를 클라우드 네이티브 환경으로 전환하는 것이 목표”라고 말했다. 대상 시스템은 올해 중으로 행정안전부와 협의해 추릴 계획이다.

단 이같은 계획들의 성공을 위해서는 ‘돈’ 문제를 넘어야 한다. 계획이 제대로 추진되려면 예산 확보가 필수다. 초거대AI 경쟁력 강화방안을 위해 정부는 올해만 3901억원을 쓴다. 이는 과기정통부를 비롯한 유관부처에 이미 확정된 예산을 사업에 활용하는 형태다.

디플정위, 예산권 없어…부처 협의 관건

디지털플랫폼정부 구축은 상황이 조금 애매하다. 위원회이기 때문에 계획의 청사진을 제시하면서도 정작 예산권은 없다. 고진 디플정위 위원장은 계획 발표 브리핑에서 “저희가 행정위원회도 아니고, 또 법적 근거를 갖고 있는 위원회가 아니기 때문에 예산을 받아서 집행할 수 있는 권한이 없다”며 “수반되는 예산 문제는 각 주관 부처와 협력해 진행할 것”이라고 언급해 성공적인 추진을 위해서는 앞으로의 예산안에 계획이 얼마나 반영될 수 있는지가 관건이 될 전망이다.

글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다