[바스리] 큐빅 “내 정보 암호화? 우리가 메타보다 잘한다”

바이라인네트워크에서 스타트업을 리뷰합니다. 줄여서 ‘바스리’. 투자시장이 얼어붙어도 뛰어난 기술력과 반짝이는 아이디어, 새로운 비즈니스 모델을 가진 스타트업은 계속해 탄생하고 있습니다. 세상을 깜짝 놀라게 하겠다고 출사표를 던진 이들을 바이라인의 기자들이 만나봤습니다.

다짜고짜 사진부터 하나 투척합니다.

왼쪽과 오른쪽 인물, 결론부터 말하면 같은 사람입니다. 눈코입이 전혀 다르다고요? 네, 맞습니다. 이 사진에서 진짜 중요한 정보는 ‘피부질환’이므로, 덜 중요한 정보를 바꿔서 사진 속 인물이 누구인지는 숨겼습니다.

예전 같으면 사람 눈에 검은색 띠를 칠해서 누군지 몰라보게 했을 텐데요, 그렇게 하면 눈과 코에 걸쳐져 있는 피부 질환에 대한 정보가 훼손될 가능성이 있죠. 정확한 정보를 많이 획득해야 해당 피부질환에 대한 연구를 병원에서 정확히 할 수 있을 테니 가능한 원하는 정보는 모두 살리면서 개인이 누군지는 숨길 수 있는 기술이 필요합니다.

원본과는 다른 데이터(노이즈)를 섞어 특정 개인이 누군지 알 수 없게 하면서 필요한 정보는 얻어낼 수 있게 하는 이런 기술을 ‘차등정보보호’라고 부릅니다. 오늘 만나보실 스타트업 ‘큐빅’이 이런 기술을 만들죠. 위의 얼굴 사진처럼, 데이터에 ‘노이즈’를 심어서 개인을 식별하는 정보는 무력화하고 데이터 연구 분석에 필요로 하는 정보를 가능한 많이 살리는데 집중하고 있습니다. 회사 측은 “차등정보보호 기술은 우리가 메타(페이스북)보다 잘한다”라고 자신합니다.

차등정보보호는 인공지능(AI)이 발전하면서 주목받는 보안 기술입니다. AI 시대가 열리면서 거의 모든 산업계가 하마처럼 데이터를 빨아들이고 있습니다. 그러나 장벽도 있죠. 데이터의 활용을 가로막는 가장 큰 부분이 바로 개인정보의 가명화, 익명화입니다. 데이터를 잘못 가져다 썼다간 기업은 서비스를 만들기도 전에 철퇴를 맞게 될테니까요.

지난달 26일, 서울 강남에 위치한 네이버 D2SF에서 큐빅의 공동창업자인 배호 대표(사진 오른쪽), 정민찬 최고전략책임자(CSO, 사진 왼쪽)를 만났습니다. 네이버 D2SF 측은 “민감정보나 기업보안 등의 이슈에 갇혀있던 데이터를 활용 가능한 자원으로 만들 뿐 아니라, 안전한 생성형 AI를 만드는데 필수적인 솔루션으로 자리잡을 것”이라고 큐빅을 높이 평가하면서 이 회사에 투자하기도 했는데요.

차등정보보호 기술이 어떻게 동작하는 건지 궁금하다면, 다음의 인터뷰를 읽어보시죠. 인터뷰이인 배호 대표는 컴퓨터과학으로 학사를, 암호학으로 석사를, 인공지능으로 박사 과정을 밟았습니다. 인공지능 보안 기술을 개발하기 최적의 코스로 보입니다. 정민찬 CSO는 병원에서 일하면서 데이터 비식별화와 데이터 분석 연구가 중요한 걸 체험하고 큐빅에 합류했습니다. 두 사람이 말하는 차등정보보호 기술의 활용도가 흥미롭습니다.

[읽기 전 요약 정리] 큐빅은?
차등정보보호 기술 개발 스타트업. 크게 세 가지 일을 하려 한다. 첫번째, ‘데이터를 사고 파는 마켓’이다. 큐빅은 플랫폼이 되어 정보를 팔려는 사람과 정보를 사려는 사람을 이어준다. 개인이 자신의 정보 중 판매가 가능한 범위를 정해 마켓에 올려놓으면, 큐빅 측이 이를 익명화해 정보를 필요로 하는 기업에 제공하고 수익을 판매자와 나눈다. 두번째는, 자신들의 차등정보보호 기술을 기업에 솔루션으로 제공하는 것이다. 현재 네이버 클라우드와 기술 협업을 진행 중이다. 세번째는, 이 B2B 기술을 대중이 쉽게 이해하고 사용해 볼 수 있도록 B2C 서비스로 내놓는 것이다. 현재 ‘너다’라는 이름으로 테스트 중인 이 서비스는 이달 중 새로운 이름을 달고 시장에 나올 예정이다.

▪ 차등정보보호 기술? 그게 뭔데?

회사의 핵심은 ‘차등정보보호 기술’이다. 그런데 말로 들으면 이게 뭔지 잘 모르겠다. 어렵게 느껴지기도 하고. 기존에 쓰던 비식별화와는 어떻게 다른가?

배호 대표(이하 배호)= 차등정보보호가 나오기 전에 K익명성이라는 비식별 모델을 많이 활용했다. 그런데 그 K익명성의 안전성이 깨진 지 굉장히 오래됐다. 그럼에도 불구하고 차세대 보안 알고리즘을 무엇으로 표준화할지가 정해지지 않아서 아직도 K익명성을 굉장히 과하게 마스킹해 사용할 수밖에 없는 부분이 있었다.

** K익명성(K-anonymity)이란? 특정 개인을 식별할 수 없도록 전체 데이터셋에 동일 값 레코드를 k개 이상 존재하도록 하는 비식별 모델을 말한다. 예를 들어, K=1000명이라고 정할 경우 그 뜻은 “내가 내보내는 하나의 데이터는 전체 1000개 중의 하나”라는 뜻으로 해석할 수 있다. 이는, 내 데이터에서 개인정보가 유출될 확률은 1000분의 1이라는 말이 되기도 한다.

** 데이터 마스킹이란? 데이터를 뒤섞어 가짜 복사본을 만드는 데이터 보안 기술을 뜻한다.

안전성이 깨졌다는 말은 데이터가 결국엔 식별화가 된다는 이야기인데

배호= 원래 유출되지 않아야 하는 데이터가 유출되는 공격 사례 발생 리포트가 굉장히 많이 있었다. 그래서 세계적으로 해당 부분을 인지하고 차세대 보안 알고리즘을 계속 개발하고 있다. 그 중에서 지금 가장 안전하다고 여겨지는 것이 차등정보보호 기술이다.

다만, 차등정보보호 기술 역시 보안 안전성을 만족시킬 수 있는 수치가 있기 때문에 그걸 어느 정도 수준으로 정해야 안전할지 그 가이드라인을 지금 세우고 있는 중이다. 우리나라 역시 미국처럼 차등정보보호 기반으로 가려 하고 있고, 따라서 여러 정부부처에서 차등정보보호 기반으로 비식별화를 적용하려는 시도를 많이 하고 있다.

구체적으로는 어떻게 정보를 보호하나?

배호= 일반적으로 익명화는 CCTV 화면 영상에서 사람의 얼굴을 블러(흐릿하고 어스름한 상태) 처리하는 거라 생각하기 쉽다. 그런데 이렇게 블러 처리가 되면 데이터를 활용에 유용성이 굉장히 떨어진다고 볼 수 있다. 큐빅이 가진 기술은 분석해야 하는 위치, 또는 통계적 가치는 그대로 보존하되 나머지 부분을 익명화 하는 그런 기술로 보면 된다.

정민찬 CSO(이하 정민찬)= 예컨대 피부 질환에 대한 데이터를 모으려 한다고 가정하자. 기존에는 눈이나 코, 입처럼 사람을 구분할 수 있는 영역을 가리는 방식을 택했다. 그렇게 하면 가장 중요한 부분인 피부 질환의 영역까지 일부 가려져 버려 데이터 가치가 훼손된다. 우리가 가진 기술은, 피부 질환의 영역은 그대로 두되, 데이터 가치에 영향을 받지 않는 눈이나 코의 모양에 노이즈를 줘 변형을 시키는 방식이다.

노이즈가 많이 들어갔다는 것은 역으로 노이즈를 제거할 가능성도 높다는 것 아닌가?

배호= 그렇지 않다. 불가역적 방법이다. 데이터가 변환된 이후 공개되면, 공개된 데이터를 기반으로 다시 원본으로 돌아갈 수 없는 불가역적 방법이다. 신시아 드워크(Cynthia Dwork)라는, 굉장히 유명한 수학자가 2009년에 검증한 알고리즘이다. 이 기술이 발전하면서, 안전도는 충분히 검증됐다.

차등정보보호를 하는 회사들이 많이 없나

배호= 국내에는 거의 없고, 해외에선 메타가 하고 있다.

차등정보보호라는 개념 자체는 나온 지가 조금 됐는데, 실제 기술로 구현이 되는 데는 왜 오래 걸리나?

배호= 생성AI 모델에 차등정보보호 기술을 접목시켜 성능을 높이는 데까지 굉장히 오래 걸렸다. 지난해까지는 거의 대부분 모델이 성능이 안 나왔고, (최근들어서) 이쪽 분야에서 조금 성능이 좋다고 하는 모델은 다섯개 정도 밖에 없을 정도로 굉장히 난이도가 있는 기술이라고 보면 될 것 같다.

기술력 차이는 노이즈가 들어가면서도 원래 데이터에서 유의미한 정보를 얼마나 정확히 가져올 수 있는지 여부겠다

배호= (원본의 데이터를) 더 많이 보존시키는 게 더 높은 기술력이라고 보면 된다. 페이스북이 메타로 이름을 바꾸고 처음 내놓은 서비스가 ‘오파코스(opacus)’인데, 여기에 차등정보보호 기술이 기반이 됐다. 그런데 큐빅의 기술 성능이 메타보다 더 높다는 평가가 나왔다.

더 좋은 지는 어떻게 알 수 있나?

배호= 데이터셋을 변환해 학습 모델을 만든 후 나온 추론 값과 원본 데이터의 추론 값을 비교해보면 된다. 네이버 클라우드에 우리의 기술을 상품화하기 위한 POC(개념증명)를 지난해부터 계속 해왔기 때문에, (메타와) 비교할 수 있는 근거가 있다.

노이즈가 계속 같은 패턴으로 생기면 안 될 것 같은데

배호= 그래서 차등정보보호라는 게 굉장히 어렵다. 연산에 따라 데이터의 민감도가 달라지기 때문이다. 또, 데이터의 민감도 만큼 양도 중요하다. 데이터가 많아지면 노이즈를 조금만 넣어도 분산 효과가 있어 개인을 특정하기 어려워진다.

어느 정도 노이즈를 줘야 되고 어디에 줘야 되고 이런 거는 솔루션에서 알고리즘이 알아서 판단하나?

배호= 알고리즘이 알아서 할 수 있는 부분도 있고, (연구진이) 특정 속성(attribute)에 고정시켜 놓을 수 있는 여러가지 기술도 있다. 필요에 따라 맞춤 기술이 제공된다.

현재 시점에서 차등정보보호 기술의 한계는 무엇인가?

배호= 노이즈 양이 많아져도 원본과 동일한 성능을 낼 수 있게끔 성능을 높이는 것이 과제다. 데이터 형태에 따라 성능이 더 많이 떨어지는 형태가 있을 수 있어서다. 또, 원본 데이터의 사이즈나 규격이 고품질일수록 차등정보보호의 기술 효용이 떨어지는 부분이 있는데, 이건 생성형 모델이 계속 발전하다보면 자연스럽게 해결될 수 있는 부분이기도 하다.

그래서 우리도 새로운 모델이 나올 때마다 차등정보보호에 대한 문제를 파악, 개선하고 있다. 그렇기 때문에 예를 들어 네이버 클라우드에 올라간 우리 모델이 계속 똑같은 상태를 유지하는 것은 아니고, 지속해 업데이트를 하는 형태를 지원한다. 매년 업데이트 되는 컴퓨터 백신을 결제해서 쓰듯, 큐빅 역시 매년 업데이트 되는 그런 형태로 기술을 제공한다.

▪차등정보보호, 어떻게 활용되나?

POC를 계속 진행해왔으니이제 곧 실제로 도입되나?

정민찬= 그 기술을 네이버 클라우드 플랫폼에 하나의 콤포넌트로 넣기 위해 양측의 의견을 조율 중이다.

네이버 클라우드와의 계약이 큐빅에게는 좋은 레퍼런스가 되겠다

배호= 더 나아가서 큐빅의 기술이 아마존웹서비스(AWS) 같은 곳에 들어가면 더 큰 파급효과를 가질 수 있을 거라고도 본다. 또, 굉장히 많은 기업들, 예컨대 병원 같은 곳에서 필요로 하기도 한다.

병원 같은 곳에서는 어떻게 차등정보보호기술을 활용하나?

배호= 희귀질환 같은 경우도 빅데이터를 통해 연구해야 하는데 한 병원에서 사례를 충분히 확보하기 어렵다. 여러 병원에 산재해 있는 데이터를 결합하려면 익명화 등의 보안 문제를 해결해야 한다. 예를 들어 병원마다 희귀질환 데이터가 10개씩밖에 없다고 치자. 그런데 전국에 있는 병원들에서 데이터를 다 모으면 1만개가 될 수 있다. 어떤 특정 병원이 마음 먹고 이 질환을 고치기 위해 데이터를 다 모으기로 한다면 가명화 처리가 잘 돼야 한다.

국방부 같은 곳도 마찬가지다. 예를 들어 국방부에서 검색 결과가 그대로 외부 서버에 넘어갈 경우 기밀이 유추될 가능성도 있다. 비단 병원이나 국방부 뿐만 아니라, 자신들이 가진 데이터를 가지고 AI 모델을 만들거나 데이터 분석을 잘 하고 싶은 곳에서 차등정보보호 기술로 데이터를 안전하게 변환해 쓸 수 있다.

비즈니스 모델은 어떻게 정리가 되나? 솔루션 구독 모델?

정민찬= 여러 회사와 협력 관계를 맺고 그분들의 문제를 해결해줄 수 있는 솔루션을 제공하는 것도 물론 있다. 그렇지만, 우리는 자체 솔루션을 플랫폼화 하려고 하는 데 더 궁극적인 목표를 갖고 있다. 데이터를 가공해서 식별화 시켜 그 데이터를 판매할 수 있는, 쉽게 말해 ‘데이터 매매업’을 하려 한다.

공공재처럼 되어버린 데이터를 본인이 수입을 올릴 수 있는 형태로 바꾸는 것이다. 데이터의 가치는 1+1=2가 아니라 1+1=3, 또는 5도 될 수 있다. 이런 데이터를 결합, 변환해 고객이 원하는 형태로 제공하고 거기에서 나온 수익을 데이터 제공자에 돌려준다. 그 과정에서 큐빅은 수수료를 얻는다.

직접 데이터를 판매하는 주체가 되면, 고객은 누가 되는 건가?

정민찬= 고객을 특정하기는 어렵다. 마케팅에도 데이터가 필요하지만, 지금 가장 중요하게 여겨지는 AI 엔진 개발에도 데이터는 가장 중요한 부분이다. 의료의 예를 다시 든다면, 희귀병 연구를 위해선 해당 희귀병과 관련한 AI 엔진을 만들어야 한다. 그런데 지금은 기술이 없는 게 아니라 데이터가 없어서 학습이 안 되고 있다. 그런 문제가 우리나라에 국한된 게 아니다. 세계적으로 본다면 그런 어려움을 겪는 모든 이가 우리의 고객이 된다고 보면 될 것 같다.

지금 우리 인터뷰를 네이버 클로바로 녹음하고 있다. 이 내용이 네이버 클라우드 서버로 갈텐데, 그 텍스트 중에서 활용하고 싶은 것이 있다면 키워드를 삭제하고 쓸 수 있다는 이야기다

배호= (민감한) 키워드가 삭제되고 올라가는 거다. 개인을 특정할 수 있는 유니크한 정보, 주민등록번호나 이름, 나이와 같은 것을 삭제하고 요약해주는 등으로 기술 확장성이 굉장히 넓다. 네이버에는 클로바노트 말고도 많은 서비스가 있다. 엔드 유저 입장에서는 내 데이터에 대한 프라이버시를 어떻게 지켜줄 수 있는지 묻는데, 그 부분을 우리가 해결해 줄 수 있다.

정민찬= LLM이라고 하는 초거대언어모델이 많이 나오고 있다. GPT나 하이퍼 클로바와 같은 모델은 일반 사용자가 질문을 하면 데이터를 기반으로 분석하고 요약해 답을 준다. 굉장히 많은 사람들이 질문하고, 원하는 답을 얻기 위해 데이터를 던진다. 성능이 좋음에도 불구하고 대기업 등에서 사용을 꺼리는 이유는 내부 데이터가 유출될 가능성 때문이다. 그런 부분을 막을 수 있는 기술이다.

이런 기술은 진짜 요구하는 곳이 많겠다. 오픈AI나 구글처럼, 사람들의 질문을 받는 모든 검색 서비스는 거의 대부분 필요로 하겠다

배호= 앞으로는 챗GPT와 같은 모델을 사용하지 않을 수 없다. 왜냐하면 이런 기술이 인터넷에 맞물려 돌아가기 때문이다. 인터넷에 검색하는 질문이 자동으로 검색엔진에 물려 있는 GPT로 넘어가고, 거기에서 결과를 가져오는 구조로 변환이 될 터다. 그럴수록 내가 가진 민감 정보가 특정 몇개의 기업으로 쏠릴 가능성이 있다. 특정 몇 기업은 계속 거대화 될거고, 민감 정보는 계속 유출 될 수밖에 없는 상황이다.

미국의 구글, 페이스북 등에서는 본인들이 만드는 초거대 언어모델이 민감 정보를 보호호하도록 하는 요소를 넣겠다고 가이드라인을 발표하지만, 그것이 잘 지켜지는지 우리가 확인한 바는 없다. 그러니 우리가 가진 솔루션 기반으로 확실하게 개인 정보를 보호하자는 것이다.

글. 바이라인네트워크
<남혜현 기자> smilla@byline.network