천정희 서울대 교수 “AI 시대 데이터 보호, 동형암호가 대안”
천정희 서울대학교 수리과학부 교수(크립토랩 대표)가 9일 국가인공지능(AI)전략위원회 보안특별위원회 주최로 열린 ‘동형암호 기반의 Encrypter LLM과 AI 데이터 보호’ 세미나에서 동형암호를 AI 시대 데이터 보호의 핵심 기술로 제시했다.
이날 천 교수는 “동형암호가 데이터를 복호화하지 않은 상태에서도 연산할 수 있어, 공공·의료·금융·국방 분야에서 AI 활용과 데이터 주권 확보를 함께 뒷받침할 수 있다”고 설명했다. 지금까지 중요한 데이터는 망분리나 접근통제 같은 기존 보안체계 안에서 관리돼 왔지만, AI에 활용하기 위해 외부로 꺼내는 순간 오히려 더 큰 위험에 놓인다는 것이 그의 진단이다. 기업과 기관이 보유한 문서, 기록, 업무 데이터가 학습 데이터나 벡터 데이터베이스(DB), 에이전트 메모리로 옮겨지는 과정에서 새로운 공격면이 생긴다는 것이다.
복호화하지 않고 계산하는 ‘동형 암호’
동형암호는 데이터를 암호화한 상태 그대로 계산할 수 있게 하는 암호 기술이다. 보통 암호화된 데이터는 먼저 풀어야 계산할 수 있다. 반면 동형암호는 데이터를 풀지 않아도 더하기, 곱하기 같은 연산을 수행할 수 있다. 천 교수는 이런 특성 때문에 동형암호가 “데이터 유출 시 피해를 최소화하는 데이터 보안 기술”이라고 설명했다.
천 교수는 동형암호가 최근 갑자기 나온 기술은 아니라고 짚었다. 개념은 1978년 처음 제안됐고, 2009년 완전동형암호가 등장하면서 본격적인 연구가 시작됐다. 이후 2017년 천 교수 연구진이 실수 연산에 적합한 CKKS(Cheon-Kim-Kim-Song)를 내놓으면서 AI와 데이터 분석에 필요한 계산을 훨씬 효율적으로 처리할 수 있는 길이 열렸다고 설명했다.
CKKS는 천정희 교수를 포함해 안드레이 김, 미란 김, 송용수 연구진이 제안한 동형암호 방식으로, 연구진 이름인 Cheon-Kim-Kim-Song의 머리글자를 따 붙인 이름이다. 암호화된 상태에서 실수 기반 계산을 처리할 수 있어 AI와 데이터 분석에 적합한 기술로 꼽힌다. 천 교수는 CKKS를 “실수 연산이 가능하고 AI 데이터 분석 등에 쓰이는 여러 연산을 빠르게 수행할 수 있게 한 전환점”이라고 소개했다.
동형암호는 느려서 못 쓴다? “옛날 얘기”
특히 천 교수는 “동형 암호의 속도가 빨라지고 있다”는 점을 강조했다. 동형암호는 오랫동안 이론은 훌륭하지만 너무 느려 실전 적용이 어렵다는 평가를 받아왔다. 천 교수도 이런 인식을 의식한 듯 기술 발전 속도를 수치로 제시했다.
천 교수에 따르면, 완전동형암호가 처음 구현됐을 때는 1비트를 처리하는 데 30분이 걸렸다. 그러나 2017년 CKKS 이후 속도가 크게 개선됐고, 10여년 동안 10억배 이상 빨라졌다. 2024년에는 AI의 핵심 계산인 ‘행렬 연산’을 더 효율적으로 처리하는 이른바 ‘4.5세대’ 기술까지 나오면서 실시간에 가까운 응용이 가능해졌다. 행렬 연산은 많은 숫자를 한꺼번에 묶어 계산하는 방식으로, AI가 문장과 이미지 같은 데이터를 이해하고 답을 만들 때 기본이 되는 연산이다.
천 교수는 암호화 검색을 사례를 예로 들었다. 기존의 방식은 전체 데이터를 복호화한 뒤 원하는 문서를 찾는다. 이 경우 필요한 문서뿐 아니라 나머지 데이터도 한꺼번에 노출 위험에 놓인다. 반면 동형암호를 쓰면 전체 문서를 암호화한 상태에서 검색하고, 찾은 결과만 복호화할 수 있다. 천 교수는 “4.5세대 기술 기준으로 암호화 검색 처리량이 기존 복호화 방식보다 더 높을 수 있다”고 설명했다.
AI가 사용하는 데이터부터 암호화해야
천 교수는 생성형 AI의 데이터 보호 전략을 세 단계로 나눠 제시했다. 첫 단계는 ‘검색증강생성(RAG) 구조에 들어가는 벡터 데이터베이스(DB)를 암호화하는 것’이다. RAG는 기업이 가진 문서를 숫자 벡터로 바꿔 저장해 두고, 질문이 들어오면 관련 문서를 찾아 대규모언어모델(LLM)에 함께 넣는 방식이다. 이때 벡터 DB가 평문 상태면 검색 과정에서 민감 정보가 노출될 수 있다.
천 교수는 문서 벡터와 질의 벡터를 모두 암호화한 상태로 검색하면, 전체 데이터가 아니라 필요한 결과만 최소한으로 꺼내 LLM에 넘길 수 있다고 설명했다. 100만 건 중 1건만 전달하는 구조가 되면, 해커가 침입하더라도 한 번에 대량의 평문 데이터를 가져가기 어려워진다는 논리다.
에이전트 메모리도 새 보안 대상
두 번째 단계는 ‘AI 에이전트의 메모리 보호’다. AI 에이전트는 작업 이력, 판단 근거, 중간 결과를 파일이나 데이터베이스 형태로 남기고, 이를 다시 읽어 다음 행동을 결정한다. 다시 말해 에이전트의 메모리는 단순 저장 공간이 아니라 행동을 좌우하는 핵심 자산이다.
천 교수는 이 메모리가 유출되거나 조작되면 비밀 정보가 새 나가는 데 그치지 않고, 에이전트가 잘못된 명령을 수행하는 문제까지 이어질 수 있다고 봤다. 그래서 에이전트가 쓰는 메모리도 암호화된 상태로 저장하고 검색해야 한다고 주장했다. 그렇게 하면 메모리 침해가 발생해도 피해 범위를 줄일 수 있다는 설명이다.
최종 목표는 ‘암호화된 AI 모델’
세 번째 단계는 모델 전체를 암호화한 상태로 작동하는 ‘Encrypted AI’다. 입력부터 연산, 출력까지 전 과정을 암호화한 채 처리하면, AI 서비스를 운영하는 서버도 원문 데이터와 비밀키를 볼 수 없게 된다. 천 교수는 이를 “엔드투엔드 암호화 AI”라고 설명했다.
다만 천 교수는 “아직 이 단계가 완전히 실용화됐다고 보기는 어렵다”고 선을 그었다. 그는 “행렬 연산은 빨라졌지만, 비선형 연산과 서비스 구조 구현에는 여전히 해결해야 할 과제가 남아 있다”고 설명했다. 이어 “다만 진전 속도는 빠르다”며 “2024년 10월 암호화된 대규모언어모델(LLM) 구현 당시 첫 응답 토큰 생성에 150초가 걸렸지만, 최근에는 이를 16초까지 줄였고 10초 이내를 목표로 하고 있다”고 설명했다.
동형암호, 국가 AI 경쟁력 원천 될 수 있다
천 교수는 동형암호를 단순한 개인정보 보호 기술이 아니라 산업 경쟁력의 문제로도 연결했다. 한국은 의료, 제조, 국방 등에서 품질 높은 데이터를 가진 나라지만, 보안 우려 때문에 이를 AI 학습과 고도화에 충분히 활용하지 못할 수 있다는 것이다. 그는 “좋은 LLM을 만들려면 데이터가 필수”라며 “중요한 데이터를 안전하게 활용할 수 있어야 AI 경쟁력도 높아진다”고 강조했다.
이어 그는 “동형암호를 현실에 적용하려면 비용과 성능 부담이 따를 수 있다”며 “대신 일반 데이터는 평문으로 학습하되, 민감한 핵심 데이터만 골라 암호화해 파인튜닝에 활용하는 식의 현실적 접근이 바람직하다”고 말했다.
또한 천 교수는 “기술 못지않게 법·제도 정비가 시급하다”고도 했다. 양자내성암호와 동형암호처럼 경쟁력을 가진 차세대 암호기술이 있어도, 제도적으로 쓸 수 없는 환경이면 공공과 주요 산업에 확산되기 어렵다는 것이다. 그는 “동형암호 기반 AI를 국가 전략기술로 육성하고, 관련 법제도 기반을 마련해야 한다”고 제안했다.
글. 바이라인네트워크
<곽중희 기자> god8889@byline.network



