AWS, ‘아마존 베드록 에이전트코어’ 업데이트… 운영 기능 강화

아마존웹서비스(AWS)는 3일 개최한 ‘AWS 리인벤트 2025’에서 대규모 환경에서 안전하게 AI 에이전트를 구축·배포할 수 있도록 지원하는 플랫폼인 ‘아마존 베드록 에이전트코어’의 새로운 기능들을 발표했다.

새롭게 추가된 ‘폴리시 인 아마존 베드록 에이전트코어’ 기능은 에이전트가 도구를 사용해 수행 가능한 작업의 범위를 설정할 수 있도록 지원하며, 에이전트코어 이밸류에이션 기능을 통해 에이전트가 실제 환경에서 어떻게 성능을 발휘할지 이해하도록 돕는다. AWS는 에이전트가 경험을 통해 학습하고 시간이 지날수록 성능을 개선해 고객에게 보다 맞춤화된 인사이트를 제공하는 향상된 메모리 기능도 함께 선보였다.

에이전트는 스스로 추론하고 행동할 수 있는 능력으로 강력한 도구가 될 수 있지만, 동시에 기업은 비인가 데이터 접근, 부적절한 상호작용, 비즈니스 운영에 영향을 줄 수 있는 시스템 수준의 오류를 방지하기 위해 강력한 통제 장치를 마련해야 한다. 아무리 정교하게 프롬프트를 구성하더라도, 에이전트는 실제 환경에서 심각한 결과를 초래할 수 있는 실수를 저지를 수 있다.

이날 출시된 폴리시 인 아마존 베드록 에이전트코어 기능은 기업이 에이전트가 수행할 수 있는 행동의 범위를 명확하게 설정하도록 지원한다. 팀은 자연어를 사용해 에이전트가 접근할 수 있는 도구와 데이터, 어떤 행동을 어떤 조건에서 수행할 수 있는지 등을 정의함으로써 에이전트에게 경계를 부여할 수 있다. 이러한 도구에는 API, 람다(Lambda) 함수, MCP 서버 그리고 세일즈포스및 슬랙과 같은 타사 서비스가 포함될 수 있다.

폴리시 기능은 에이전트가 신속성과 반응성을 확보할 수 있도록 에이전트코어 게이트웨이에 통합돼 에이전트의 행동이 정책에 부합하는지 밀리초 단위로 즉시 검사한다. 이를 통해 에이전트가 자율적으로 작동하면서도 기업이 설정한 범위 안에서만 행동하도록 보장한다.

자연어 기반 정책 작성 기능은 고객이 복잡한 정책 코드를 작성하는 대신 자연어로 규칙을 설명하는 것만으로도 세밀한 정책을 쉽게 구성할 수 있도록 지원한다. 예를 들어 “1000달러를 초과하는 고객 환불 요청은 모두 차단한다”와 같은 정책도 자연어로 손쉽게 정의하고 일관되게 적용할 수 있다. 이는 아마존의 ‘신뢰하되 검증한다(trust, but verify)’ 원칙에 따라 에이전트가 적절한 감독을 유지하면서 자율적으로 작동할 수 있게 한다.

기존 소프트웨어 메트릭과 달리 AI 에이전트의 품질을 평가하려면 복잡한 데이터 사이언스 파이프라인, 주관적 평가, 지속적인 실시간 모니터링이 필요하다. 에이전트가 업데이트되거나 모델이 변경될 때마다 이러한 어려움은 더욱 복잡해진다.

에이전트코어 이밸류에이션 기능은 정확성(correctness), 유용성(helpfulness), 도구 선택 정확도, 안전성, 목표 성공률, 컨텍스트 관련성과 같은 일반적인 품질 측면에 대해 13개의 사전 구축된 평가기를 제공해 복잡한 프로세스를 간소화하고 복잡한 인프라 관리를 제거한다.

[무료 웨비나] 복잡한 레거시 환경에서 AI를 안전하게 확장하고 비즈니스 혁신을 가속화하는 방법

일시 : 2026년 7월 23일 (목) 14:00 ~ 15:00

개발자는 선호하는 대규모 언어 모델(LLM)과 프롬프트를 사용해 자체 맞춤형 평가기를 직접 작성할 수 있는 유연성을 갖는다. 이전에는 평가 시스템만 구축하는 데 수개월의 데이터 사이언스 작업이 필요했다. 신규 서비스는 실시간 에이전트 상호작용을 지속적으로 샘플링해 정확성, 유용성, 안전성과 같이 사전에 정의한 기준에 따라 에이전트 행동을 분석한다. 개발팀은 테스트 단계뿐 아니라 운영 환경에서도 평가 기능을 활용해 사전 품질 모니터링을 위한 알림을 설정할 수 있다. 예를 들어 고객 서비스 에이전트의 만족도 점수가 8시간 동안 10% 하락하면 시스템이 즉각 알림을 보내 고객 경험에 영향을 미치기 전에 신속하게 대응할 수 있다.

오늘날 대부분의 AI 에이전트는 핵심적인 메모리 기능이 부족하다. 일반적으로 메모리는 새로운 상호작용마다 재설정되는 단기 컨텍스트 윈도우로 제한돼 프로덕션 환경에서의 성공이나 실패 경험을 학습해 축적할 수 없기 때문이다.

에이전트코어 메모리(AgentCore Memory)는 이러한 핵심 기능을 제공해 에이전트가 시간에 따라 사용자에 대한 일관된 이해를 구축할 수 있도록 한다. 이번에 신규 정식 출시된 에피소딕(episodic) 메모리 기능은 에이전트가 과거 경험을 학습하고 이를 향후 상호작용에 적용하도록 지원한다. 이 기능은 컨텍스트, 추론 과정, 행동, 결과를 구조화된 ‘에피소드’ 형태로 저장하고, 또 다른 에이전트가 이를 자동으로 분석해 의사결정 패턴을 개선한다. 에이전트가 유사한 작업을 접할 때 관련 이력을 빠르게 조회해 처리 시간을 단축하고 불필요한 맞춤 지침 없이도 더 나은 결정을 내릴 수 있다.

예를 들어 혼자 여행할 때는 비행 45분 전에 공항 교통편을 예약했던 에이전트가 세 달 후 같은 목적지로 아이들과 함께 여행할 때는 이전 가족 여행의 어려움을 기억하고 자동으로 두 시간 전에 차량을 예약하는 식이다. 이러한 학습 기반 접근 방식은 사전에 정해진 가이드라인에 의존하지 않고 실제 성과 데이터에 기반해 더 일관된 결정을 내릴 수 있도록 돕는다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network