2주 걸리던 SRE 업무, AI 동료와 하니 이틀로 줄어
최근 개발 현장에서 인공지능(AI)을 활용한 생산성 향상 논의가 활발하다. 하지만 인프라 안정성을 책임지는 ‘사이트 신뢰성 엔지니어링(이하 SRE)’ 영역에서의 AI 활용 논의는 상대적으로 부족하다는 것이 조훈 메가존소프트 엔지니어의 진단이다.
조 엔지니어는 지난달 24일 <바이라인네트워크>에서 개최한 ‘AI 시대를 준비하는 쿠버네티스’ 웨비나에서 ‘AI-주도(Driven) SRE’를 주제로 발표하며, 1인 SRE 환경에서 AI를 도입해 업무 생산성을 5배 높인 사례를 공유했다.
그는 대량 메시지 발송 플랫폼 ‘메가버드(MegaBird)’의 EKS(아마존의 쿠버네티스 서비스) 환경을 기존 V1에서 V2로 마이그레이션했다. 메가버드는 24시간 중단 없이 운영되어야 해서 작업에 강력한 제약이 따랐다. 또한 캐싱 솔루션을 전환하고, 옵저버빌리티 스택을 재구축하는 등 방대한 업무를 혼자 감당해야 했다.
이에 조 엔지니어는 클로드 코드(Claude Code)를 동료 삼아 작업을 진행했다. 일반적으로 SRE 담당자는 위키나 내부 문서를 읽고 터미널에 수동으로 명령어를 치며 결과를 기록하는 방식으로 일한다. 조 엔지니어는 AI와 함께 일하기 위해 기존 방식을 구조화했다. 이 과정에서 AI의 기술적 취약점을 보완해 나가다 보니 자연스럽게 ‘4계층 문서 체계’가 탄생했다.

첫 번째 계층인 ‘워크 플랜(work-plans)’은 기존 위키처럼 사람이 읽고 판단하기 위한 계획서다. 각각의 인프라 컴포넌트를 변경하는 이유와 방법, 내부 토론 결과, 한국어 설명 등 방대한 정보가 기록된다. 많은 맥락을 포함하지만 이를 그대로 전달하면 과도한 정보량 탓에 AI가 환각을 일으킬 수 있어 정제가 필요하다.
두 번째 계층은 ‘클로드 콘텍스트(claude-context)’로, 워크 플랜에서 AI가 읽어야 할 핵심만 뽑아낸 문서다. 환경 값이나 배포 상태 등 프로젝트 상태를 AI가 즉시 파악할 수 있도록 한 요약 노트와 같다. 조 엔지니어는 이 부분을 모두 영어로 작성했는데, 한글이 들어갈 경우 번역 과정에서 불필요한 처리 비용과 지연이 발생하기 때문이다.
세 번째 계층은 ‘커맨드 가드레일(command-guardrails)’이다. AI의 자의적 추론으로 인프라가 망가지는 것을 막기 위한 문서다. 조 엔지니어는 “AI는 방향성이 명확하지 않으면 나름대로 최선의 결과를 내기 위해 노력하는데, 인프라 단에서는 매번 실행할 때마다 결과가 달라지거나 원하지 않는 결과를 만들어낼 수 있어 가드레일을 설정해야 한다”고 설명했다. 그는 이 문서에 단계별 실행 순서를 강제하고, 기존 환경을 보호하기 위해 관리 명령어 중 일부만 허용하는 규칙을 명시했다.
마지막 계층은 ‘헬름 밸류(helm-values)’로, 인프라스트럭처 애즈 코드(IaC)와 유사하게 구체적 설정값을 고정하는 문서다. 가드레일로 명령어를 제어하더라도, 파일로 명확히 정의된 설정값이 없으면 AI가 세부 옵션을 멋대로 변경하는 문제가 생길 수 있다. 예를 들어 모니터링 도구 배포 시 타 시스템 연동 안정성을 위해 구버전을 유지해야 함에도 AI가 최신 버전으로 업그레이드해버리는 식이다. 조 엔지니어는 설정값 고정으로 AI의 이런 자의적 해석 가능성을 원천 차단했다.
이렇게 완성된 4계층 구조는 위에서 아래로 내려갈수록 사람이 작성한 의도에서 출발해, 기계가 즉시 실행할 수 있는 코드로 좁혀지는 형태다. AI가 임의로 행동할 여지를 줄여나가며 누가 언제 명령을 내려도 동일하게 작동하는 인프라를 만든 것이다.
조 엔지니어는 작업 과정에서 ‘AI에게 맡길 것’과 ‘사람이 판단할 것’의 경계가 명확해졌다고 말했다. 클러스터 상태 점검, 개발 환경과 프로덕션 환경 비교, 로그 분석 등은 AI가 전담한다. 반면 비즈니스 상황을 고려한 아키텍처 의사결정이나 알람 예외 처리 등 맥락이 필요한 영역은 사람의 통제 아래 뒀다.
그는 문서 체계화가 가져다준 예상치 못한 부수 효과에 대해서도 언급했다. 문서가 깃(Git) 저장소에 쌓이면서 팀 전체의 의사결정 히스토리를 담은 운영 지침이자 온보딩 자료가 된 것이다. AI를 위해 만든 문서가 팀의 자산인 ‘단일 진실 공급원(Single Source of Truth)’ 역할까지 하게 됐다.
무엇보다, 본래 의도했던 대로 작업 소요 시간이 크게 단축됐다. 수작업 시 1~2주일이 걸리던 개발 환경 구축이 2일로 줄어들었고, 프로덕션 환경은 하루 만에 구성되는 등 1인 SRE 작업 커버리지가 5배가량 확장됐다.
생산성 향상으로 일자리가 위협받는 것 아닐까 하는 우려에 대해, 조 엔지니어는 다음과 같이 대답했다. “AI-Driven SRE는 더 적은 사람이 시스템을 운영하는 것이 아니라, 같은 사람이 반복 작업에서 벗어나 더 나은 판단에 집중하도록 돕는 것입니다.” 그는 인프라 구축과 점검 같은 업무를 AI가 담당하게 되면, 운영자는 남는 시간에 클라우드 비용 최적화 등 보다 가치 있는 아키텍처 고도화 작업에 몰두할 수 있다고 강조했다.
글. 바이라인네트워크
<이슬찬 기자>seulbae@byline.network



