[인터뷰] 금융권 AI 도입 관건은 ‘신뢰성’…셀렉트스타의 해법

금융권을 중심으로 생성형 인공지능(AI) 활용이 본격화되면서, AI 모델의 안전성과 신뢰성을 어떻게 검증할 것인지가 새로운 과제로 떠오르고 있다. 자산과 민감한 개인정보를 다루는 금융 산업 특성상, AI 도입 과정에서 리스크 관리와 객관적인 검증 체계는 필수 요건으로 꼽힌다. 최근 망 분리 규제 완화와 AI 활용 가이드라인 정비가 이어지면서, 금융권에서는 AI 품질과 안정성을 입증할 수 있는 기술에 대한 수요가 빠르게 늘고 있다.

이 같은 흐름 속에서 셀렉트스타는 AI 데이터 구축과 신뢰성 평가를 전문으로 하는 기업으로 금융권의 주목을 받고 있다. 금융 문서를 이해하는 AI 모델 개발을 위해 데이터 구조화부터 학습·검증용 데이터셋(자료 묶음) 설계까지 전 과정을 지원하고 있다.

셀렉트스타는 AI 신뢰성 평가 자동화 솔루션 ‘다투모 이밸(Datumo Eval)’을 통해 금융권에 특화된 AI 검증 환경을 구축했다. 이 솔루션은 AI 모델의 품질과 안전성을 평가하기 위한 지표 관리와 자동 평가 체계를 기반으로, 금융 서비스에 적용되는 AI의 안정성을 점검하는 데 활용되고 있다. 특히 복잡한 약관과 수치 정보를 다루는 금융 특화 대규모언어모델(LLM)의 경우, 정밀한 신뢰성 평가가 핵심 요소로 지적된다. 다투모 이밸은 이러한 요구에 맞춰 평가 데이터 자동 생성과 취약점 진단, 평가 결과 분석 기능 등을 제공하며 금융기관의 AI 검증 부담을 낮추는 역할을 한다는 평가다.

이처럼 금융 산업의 규제 환경과 기술적 요구를 동시에 반영한 접근이 셀렉트스타가 금융권에서 주목받는 배경으로 꼽힌다. 김세엽 셀렉트스타 대표를 만나 금융권 AI 신뢰성 검증 시장의 변화와 향후 전략에 대해 이야기를 들어봤다.

AI 신뢰성 평가란 무엇인가

AI 서비스에 대해 이를 개발·운영하는 조직이 AI에 기대하는 바가 무엇인지, 기대 수준에 실제로 부합하는지를 확인하는 과정이다. 구체적으로는 고객에게 전달하고자 했던 품질 수준이 적정한지, 리스크 관점에서 안전성이 충분한지를 종합적으로 점검하는 절차다. 일반적으로 신뢰성은 ‘품질’과 ‘안전성’의 결합으로 설명된다. 금융 분야에서는 품질의 중요성이 특히 크다. 금융 AI 서비스가 고객에게 제공하는 가장 기본적인 가치는 신뢰이기 때문이다. 할루시네이션(환각)이 발생하지 않는지, 제공되는 정보가 정확한지가 핵심적인 품질 요소로 꼽힌다. 실제로 AI의 답변 정확도를 평가하는 것이 대표적인 신뢰성 검증 사례다.

특히 금융 분야는 규제 환경을 함께 고려해야 한다. 금융소비자보호법에는 금융상품 설명 의무가 명시돼 있으며, 상품 설명은 정확하게 전달돼야 한다. AI가 상품 설명 과정에서 규제 위반 소지는 없는지, 법적 의무를 어길 가능성은 없는지를 함께 점검해야 한다. 안전성 측면에서도 명확한 기준이 존재한다. 금융회사 입장에서는 보안상 문제가 없어야 하며, 고객 관점에서는 편향이나 혐오 표현 등 불쾌감을 유발할 수 있는 요소가 없어야 한다. 이러한 문제가 발생하지 않는지를 점검하는 과정 역시 신뢰성 평가에 포함된다.

신뢰성 평가는 사람을 평가하는 방식에 빗대어 이해할 수 있다. 사람에게 시험 문제를 풀게 하거나 인터뷰를 진행하듯, AI에도 다양한 질문을 던지고 그에 대한 답변을 평가한다. 다양한 질문에 대한 AI의 응답을 확인하고, 그 결과를 점수화하는 과정이다. 다만 AI의 특성상 100점을 기준으로만 서비스를 설계하면 서비스를 출시하기 어렵다. 이 때문에 금융 분야에서는 다른 산업에 비해 상대적으로 높은 기준 점수를 설정하되, 이를 단계적으로 적용하는 방식이 일반적이다. 실제로 금융권에서는 내부 직원용 AI 서비스를 먼저 도입한 뒤, 충분한 검증을 거쳐 대고객 서비스로 확장하는 흐름이 이어지고 있다.

AI에 대한 평가는 전문성을 갖춘 인력이 직접 수행하는 것이 바람직하지만, 전문가들은 본업 외에도 처리해야 할 업무가 많아 모든 평가를 맡기에는 현실적인 한계가 있다. 이로 인해 평가 과정의 자동화 중요성이 커지고 있다. 이러한 요구에 대응하기 위해 셀렉트스타는 AI 신뢰성 평가 자동화 솔루션 다투모 이밸을 제공하고 있다. 사람이 수행하던 AI 검증 업무를 자동화하고, 전문가를 대신해 대규모 평가를 효율적으로 수행할 수 있도록 설계된 솔루션이다.

금융권 인공지능 신뢰성 검증에 주목한 계기는

금융뿐만 아니라 향후에는 AI 서비스가 적용될 수 있는 거의 모든 산업 분야로 확장할 계획이다. 다만 어디에서부터 출발할지가 중요하다고 판단했다. AI 서비스를 시험적으로 만들어보는 단계라면 신뢰성 검증이 필수는 아니다. 직접 사용해보며 정상적으로 동작하는지만 확인해도 충분하다.

그러나 단순한 테스트나 개념검증(PoC) 단계를 넘어, 실제 서비스 수준으로 상용화가 가장 빠르게 이뤄질 수 있는 분야가 어디인지가 핵심이었다. 그 결과 금융 분야가 가장 빠를 것으로 판단했다. 금융 산업은 특성상 신뢰성 평가의 중요성이 크기 때문에, 자연스럽게 금융권으로 진출하게 됐다.

해외 사례를 살펴봐도 금융 분야에서 AI 전환과 도입이 비교적 빠르게 진행되는 경향이 있다. 실제로 금융권에서는 AI 서비스에 대한 발주나 구체적인 서비스 개발 계획이 활발하게 나오고 있다.

금융권은 왜 인공지능을 도입하려고 하나

금융은 일반 소비자의 선택을 받아야 하는 산업이다. 선택을 받기 위해 차별화를 어떻게 만들 것인지는 금융사들이 지속적으로 고민하는 지점이다. 금융상품 자체는 구조나 조건이 대동소이한 경우가 많아, 결국 고객에게 어떤 경험과 서비스를 제공하느냐가 경쟁력으로 작용한다. 고객을 지속적으로 확보하고 유지하기 위한 수단으로 AI가 주목받고 있다.

두 번째 이유는 투자 여력이다. AI 도입은 상당한 투자가 필요한 영역인데, 금융권은 다른 산업에 비해 자금 여력이 비교적 풍부한 편이다. 대규모 투자가 가능한 환경이라는 점에서 AI 도입을 추진하기에 유리한 조건을 갖추고 있다.

세 번째로 금융은 사람이 수행하던 업무 비중이 높은 산업이기 때문에, AI를 도입했을 때 비교적 즉각적인 투자 대비 효과(ROI)를 확인할 수 있다. AI 도입을 통해 비용을 절감하거나 매출을 창출함으로써 실질적인 성과를 기대할 수 있다. AI의 기본적인 특성 자체가 비용 절감과 효율화에 있다는 점도 금융권 도입을 촉진하는 요인이다.

또한 금융 산업은 텍스트와 문서 중심의 업무 비중이 높다. 이는 대규모언어모델(LLM)이 가장 강점을 발휘할 수 있는 영역으로, AI가 해결할 수 있는 문제가 상대적으로 많다는 점도 금융권에서 AI 도입이 빠르게 진행되는 배경으로 작용하고 있다.

주요 금융권의 실제 도입 사례는

우리은행의 경우 AI 청약 상담 서비스를 출시했다. 금융 소비자들이 전화보다는 인터넷이나 다양한 애플리케이션(앱)을 통해 정보를 얻는 방식을 중요하게 인식하고 있다는 점을 반영한 것이다. 단순한 챗봇으로는 해결하기 어려운 고객별 다양한 상황을 고려해, 상황에 따라 복잡한 청약 절차를 설명할 수 있는 서비스를 우선적으로 제공했다.

금융상품 가입이나 구매 과정에서 소비자는 스스로 판단을 내려야 한다. 그러나 금융은 구조가 복잡해 이해하기 어려운 경우가 많다. 이에 금융권에서는 이러한 어려움을 빠르게 해소할 수 있도록 기본적으로 질문과답변(Q&A)이나 상담 형태의 AI 서비스를 준비하고 있다. 이를 통해 고객이 완전한 비대면 환경에서도 필요한 정보를 얻을 수 있도록 하는 것이 목표다. 전화 상담은 인력이 필요한 영역인 만큼, AI를 통해 인력 의존도를 줄일 수 있다는 점도 고려됐다.

카카오뱅크는 대화형 AI 검색 서비스를 선보였다. 사용자가 금융과 관련된 다양한 질문을 하면, 대화를 통해 답변을 제공하는 형태의 서비스다.

이와 함께 금융권에서는 AI 서비스를 도입할 때 데이터와 신뢰성 평가를 함께 진행하는 사례가 늘고 있다. AI 엔진이나 핵심 기술은 각 금융사가 자체적으로 구축할 수 있지만, 데이터의 적정성이나 AI 결과가 신뢰할 수 있는지에 대한 검증은 외부 전문 기업의 도움을 받는 방식이 활용되고 있다.

셀렉트스타와 같은 AI 신뢰성 검증 기업은 많은 편인가

비슷한 규모의 기업은 아직 거의 없는 상황이다. 최근 들어 관련 분야의 신생 스타트업들이 조금씩 등장하고 있는 단계다. 셀렉트스타는 국내에서 비교적 이른 시점부터 AI 신뢰성 검증에 집중해 왔으며, 향후 시장이 성장할 것으로 보고 있다. 다만 아직까지는 매우 큰 시장이라고 보기는 어렵다.

현재로서는 AI 서비스를 개발하고 구축하는 시장의 규모가 훨씬 크다. 신뢰성 검증은 AI 서비스가 실제로 구축된 이후에 뒤따라 붙는 영역이기 때문이다. AI 도입이 확산될수록 필요성이 커지는 구조다.

기술의 진입 장벽이 점차 낮아지는 환경에서, 스타트업이 생존하기 위해서는 AI 생태계 내에서 명확하고 날카로운 영역을 확보해야 한다고 보고 있다. 이러한 판단에 따라 셀렉트스타는 AI 모델이나 서비스 개발 요청이 들어오더라도 직접 수행하기보다는 정중히 사양하거나, 필요한 경우 다른 파트너사를 연결하는 방식으로 대응하고 있다.

신뢰성 검증이 최근 중요해진 이유는

신뢰성 검증은 2024년부터 본격적으로 주목받기 시작했다. 2023년 챗GPT 등장 이후 대규모언어모델(LLM)이 빠르게 확산되면서다. LLM 이전의 딥러닝 시기에는 정답이 명확한 문제를 AI가 푸는 구조였기 때문에, 수능 시험처럼 결과가 분명하게 갈렸고 평가 역시 비교적 수월했다.

그러나 LLM은 정답이 하나로 정해지지 않은 문제를 다루기 시작했다. 표현 방식에 따라 여러 답변이 모두 성립할 수 있는 구조로 바뀌면서, AI 평가는 사람을 평가하는 것처럼 훨씬 다양하고 복잡한 과정이 됐다.

챗GPT 등장 이후 AI 도입 필요성은 빠르게 확산됐지만, 동시에 과연 신뢰할 수 있는지에 대한 고민도 커졌다. 실제로 이 시기 신한은행이 내부 직원을 대상으로 금융 지식 Q&A 서비스를 구축하는 과정에 참여해, 데이터 구축과 평가를 함께 수행했다.

이 경험을 통해 LLM 도입과 AI 활용에 대한 고민이 특정 금융사에 국한된 문제가 아니라, AI를 도입하려는 모든 기업이 공통적으로 마주하게 될 과제라는 점을 확인했다.

요즘 금융권은 AI를 어떻게 도입하고 있나

최근 금융권의 AI 도입은 단순히 질문에 답변하는 수준을 넘어, 이른바 ‘AI 에이전트’ 단계로 진화하고 있다. 과거에는 AI가 정보를 제공하는 데 그쳤다면, 이제는 실제 업무를 대신 수행하는 방향으로 활용 범위가 넓어지고 있다.

가령 청약 상담을 예로 들면, 기존에는 고객이 질문을 하면 AI가 답변을 제공하는 수준에 머물렀다. 그러나 한 단계 더 나아가면 청약 과정에서 필요한 서류 작성이나 신청 절차 등 개별 업무를 AI가 대신 수행하는 형태로 확장될 수 있다. 단순한 상담을 넘어, 실제 업무 흐름 전반을 지원하는 방식이다.

이처럼 에이전트라는 명칭은 사용자를 대신해 무언가를 수행하는 존재라는 의미를 담고 있다. 단순히 정보를 전달하는 역할을 넘어, 사람을 대신해 업무나 행동을 수행하는 일종의 수행원에 가까운 개념으로 이해할 수 있다.

AI는 어떻게 변화할까

빅테크 기업들은 각기 다른 방향에서 AI의 미래를 제시하고 있다. 구글 딥마인드는 인공일반지능(AGI) 개념을 중심으로, 모든 산업과 전문 영역에서 AI가 인간 전문가를 능가하는 수준을 지향하고 있다.

오픈AI가 제시한 프레임워크(체계)는 또 다른 방향이다. AI가 단순히 문제를 해결하거나 에이전트 형태로 개별 업무를 수행하는 수준을 넘어, 대규모 조직의 업무 자체를 AI가 대체하거나 수행하는 단계로 발전할 수 있다는 관점이다.

딥마인드가 제시한 방향이 AI 하나하나의 전문성을 극대화하는 데 초점을 맞췄다면, 오픈AI는 AI의 영향력이 개인을 넘어 조직 전반으로 확장될 수 있다는 점을 강조하고 있다. 이에 따라 AI 에이전트에게 점차 더 많은 권한이 부여될 수밖에 없다.

AI가 기대한 만큼의 업무를 안정적으로 수행하는지에 대해서는 지속적인 모니터링과 평가가 필요하다. AI 신뢰성 검증의 중요성은 더욱 커질 것으로 보인다. 향후에는 수백 개의 AI가 동시에 작동하는 환경이 일반화될 수 있는 만큼, 이를 어떻게 관리하고 평가할 것인지는 중요한 과제로 떠오르고 있다.

셀렉트스타의 방향성은

AI 시장이 기존 챗봇 중심에서 에이전트 중심으로 넘어가고 있다. 이에 따라 에이전트에 보다 특화된 평가 영역에 집중하고 있다. 지금까지는 AI 서비스를 출시해도 되는지를 판단하는 사전 평가에 주력해왔다. 다만 서비스가 출시된 이후에는 결국 목표한 수준까지 성장을 시켜야 한다고 보고 있다. 다양한 AI 서비스가 실제로 성장해야 한다는 점에서 단순한 사전 평가만으로는 한계가 있다고 판단했다.

이에 AI 서비스가 성장할 수 있는지를 분석하는 플랫폼으로까지 고도화하려는 방향성을 잡고 있다. 기존에는 사전 평가에 가까웠다면, 이제는 AI 에이전트가 실제로 활동하는 모습을 관찰하고 목표한 수준에 도달했는지를 확인하는 사후 평가 영역까지 확장할 수 있을 것으로 보고 있다.

신뢰성 검증의 결과를 어떻게 신뢰할 수 있나

신뢰성 검증 결과의 신뢰도는 전문가와 솔루션 평가가 얼마나 일치하는지를 기준으로 판단하고 있다. 실제로 전문가가 직접 평가한 결과와 솔루션이 산출한 결과를 비교해보면, 약 80~90% 수준의 일치도를 보이고 있다.

AI 제품, 서비스 개발 단계에서는 분야별 전문가를 고용해 직접 채점한 데이터를 구축하고, 이를 기준 데이터로 활용하고 있다. 이후 솔루션을 개발해 고객사에 납품할 때는 이러한 전문가 평가 결과를 함께 제시하며 검증 과정을 거친다.

고객사가 자체 데이터로 추가 검증을 원할 경우에도 별도의 절차를 진행한다. 고객이 제공한 내부 데이터를 기반으로 해당 환경에 맞는 검증 시나리오를 구성하고, 솔루션 평가 결과를 끝까지 한 차례 더 점검한다. 이 결과를 고객사가 직접 고용한 현업 전문가의 판단과 대조해보는 방식으로, 평가 결과의 신뢰성을 한 번 더 확인한다.

평가 점수 산출은 솔루션의 기본 기능이다. 고객사는 내부적으로 기준 점수를 설정하고, 해당 점수를 넘는지를 AI 도입 여부나 서비스 운영의 최소 의사결정 기준으로 활용하고 있다. 서비스 개발 과정에서도 평가와 개선은 반복적으로 이뤄진다. 초기 평가에서 기준을 충족하지 못한 부분이 확인되면, 문제 지점을 수정한 뒤 다시 평가하는 과정을 거친다.

이 과정에서 구체적인 해결책을 제시하기보다는, 현재 어떤 부분이 문제인지 원인을 명확히 짚어주는 데 초점을 맞추고 있다. 문제 지점을 제시하면, 실제 개선은 고객사가 자율적으로 수행하는 방식이다.

데이터 제공은 어떤 방식으로 제공하고 있나

데이터 제공은 주로 파운데이션 모델(대규모 범용 인공지능 모델)을 개발하는 빅테크 기업을 대상으로 이뤄지고 있다. 국내에서는 네이버, SKT, KT, LG AI연구원 등이 주요 고객사다. 해외 빅테크 기업들도 고객으로 포함돼 있다.

데이터 제공에 집중하게 된 이유는 직접 AI를 개발하면서 느낀 경험 때문이다. AI 모델을 만드는 것보다 데이터를 처리하고 관리하는 데 더 많은 시간과 노력이 필요하다는 점을 체감했다. 이 과정에서 AI 개발에서 가장 큰 병목이 데이터라는 판단에 이르렀다.

AI는 1900년대부터 존재해 왔지만, 딥러닝 이후 본격적으로 발전했다. 이는 대규모 데이터를 활용하기 시작했기 때문이다. 그만큼 AI에서 가장 중요한 요소는 데이터이며, 동시에 가장 해결하기 어려운 과제 역시 데이터라고 보고 있다. 이러한 인식이 창업의 출발점이 됐다.

셀렉트스타는 데이터에서 출발한 기업인 만큼 데이터 역량을 가장 중요한 경쟁력으로 보고 있다. 신뢰성 검증 역시 결국 데이터가 핵심이라고 판단하고 있다. 어떤 데이터를 기준으로 평가하느냐에 따라 평가의 수준, 범위가 크게 달라지기 때문이다. 이에 데이터 영역에서 차별화를 추구하고 있다.

향후 계획은

가장 중요한 방향은 글로벌 진출이다. AI 시장은 특정 영역에 대한 뚜렷한 특화를 갖지 않으면 살아남기 어려운 시장이라고 보고 있다. 다만 특화를 국내 시장에만 한정할 경우, 성장 측면에서 분명한 한계가 있다는 점도 체감하고 있다.

이에 영역 자체는 더욱 좁고 날카롭게 특화하되, 그 대상을 국내에 국한하지 않고 글로벌로 확장해야 한다고 판단했다. 그래야 회사가 더 크게 성장할 수 있고, 장기적으로도 지속 가능한 구조를 만들 수 있다고 보고 있다. 이러한 방향 전환이 올해부터 가장 중요하게 가져가야 할 변화라고 인식하고 있다.

글. 바이라인네트워크
<이수민 기자>Lsm@byline.network