“한국 기업 66.5%는 AI 역량 측정 기준 없다”

AI 기반 온라인 테스팅 플랫폼 기업 그렙(대표 임성수)은 ‘2026년 대한민국 기업의 AI 역량 진단’ 리포트를 17일 발간했다.

이번 조사는 지난 4월 17일부터 28일까지 국내 중견·대기업 HR 담당자 및 경영진 200명을 대상으로 진행됐다. 응답자의 68%가 임원·부장급으로 현장 의사 결정권자 중심의 표본을 확보했다. 그렙은 이번 리포트에서 기업들이 공통적으로 겪는 ‘AI 역량 측정의 공백’을 풀 해법으로 직무별 행동 지표인 ‘AI 역량 루브릭’을 제시했다.

조사 결과 기업은 AI의 중요성을 인식하면서도 이를 실제로 측정하지 못하는 ‘인식과 실행의 불일치’ 상태에 놓인 것으로 나타났다. ‘AI 역량이 성과에 영향을 미친다’는 인식은 평균 3.76점이었으나, 조직의 AI 역량 수준을 실제로 파악하고 있다는 응답은 평균 2.63점에 그쳤다. 두 지표의 격차는 1.13점으로, AI의 중요성은 알지만 구체적인 평가나 측정에는 이르지 못하고 있음을 보여준다.

이러한 격차는 기업들이 역량을 정의하는 단계부터 막혀 있기 때문으로 확인됐다. ‘AI 역량의 명확한 기준이 있다’는 응답은 3.5%에 불과했고, 기준이 아예 없거나 비공식 기준만 있다는 응답이 66.5%에 달했다. AI 역량 파악이 어려운 이유로는 팀·직무별 활용 수준 차이(45.0%), AI 활용과 성과(ROI) 연결의 어려움(43.0%), 객관적 기준 부재(42.5%)가 비슷한 비중으로 꼽혔다.

이러한 평가 기준의 부재는 교육과 채용 현장에서도 반복되고 있다. 응답 기업의 84.2%가 12개월 이내에 AI 교육 도입을 계획하고 있으나, 이 중 79.0%는 ‘효과를 측정할 기준이 없다(46.0%)’거나 ‘적절한 솔루션이 없다(33.0%)’며 도구 부족에 따른 어려움을 들었다. 채용 시장도 마찬가지다. 신입·경력 채용 시 AI 역량의 중요도는 평균 3.20점으로 높아지는 추세지만, ‘적절한 평가 도구가 없다(42.9%)’는 응답이 가장 많아 여전히 서류와 주관적 면접 등 전통적인 방식에 의존하고 있었다.

기업들이 선호하는 평가 방식으로는 ‘실무 과제 평가(40.5%)’가 1위를 차지한 반면, ‘이론·지식 평가(7.5%)’는 최하위에 머물렀다. 평가 결과를 서열화가 아닌 ‘조직 역량 진단(54.5%)’에 활용하고 싶다는 수요가 가장 높았다. 지식 유무보다 ‘실제 쓸 수 있는가’를, 개인보다 ‘조직 전체의 역량’을 진단하려는 수요가 확인된 것이다.

그렙은 이 같은 요구에 대한 해법으로 ‘AI 역량 루브릭(단계별 행동 특성 기준표)’을 제시했다. 기업들이 AI 역량을 정의하지 못하는 원인이 눈에 보이지 않는 역량을 정량화하지 못한 데 있는 만큼, 직무별로 AI 활용 단계를 세분화하고 각 단계에서 어떤 행동과 결과물이 나와야 하는지 객관적인 기준을 세워야 한다는 취지다. 행동 지표를 기준으로 삼으면 팀별 활용 편차를 줄이는 동시에, 교육 효과를 실무 성과(ROI)와 직접 연결하고 조직 역량 진단까지 하나의 체계로 묶을 수 있다.

‘AI 역량 루브릭’은 결과물만 채점하는 기존 평가와 달리 ‘문제를 푸는 과정’까지 추적한다. 예컨대 데이터 분석 과제의 경우, 결과의 정확성과 우선순위 판단을 감점식으로 평가하는 동시에 ‘문제를 어떻게 정의했는지’, ‘데이터를 교차 분석했는지’, ‘판단 기준이 일관됐는지’ 등을 가점식으로 함께 측정한다. 응시자는 점수뿐만 아니라 자신의 AI 활용 과정에 대한 구체적인 피드백을 받게 되며, 기업은 이력서로는 드러나지 않던 직원의 실제 실무 수행력을 객관적인 데이터로 확인할 수 있다.

[무료 웨비나] 복잡한 레거시 환경에서 AI를 안전하게 확장하고 비즈니스 혁신을 가속화하는 방법

일시 : 2026년 7월 23일 (목) 14:00 ~ 15:00

윤성혜 그렙 AI역량연구본부 본부장은 “그냥 AI를 쓰는 것은 일을 잘하는 것이 아니다. 어떤 문제를 풀고 싶은지, 어떻게 AI를 적용해 효율적으로 풀 것인지, 어떤 성과를 만들 것인지를 통합적으로 사고하는 것이 진짜 AI 역량”이라며 “시대에 따라 도구만 달라질 뿐 문제를 찾고 해결하는 근본은 변하지 않는 만큼, 역량을 객관적으로 측정할 기준을 계속 정교하게 다듬어 가겠다”고 말했다.

이 진단 체계는 그렙의 ‘프로그래머스’가 운영 중인 기업 맞춤 ‘AI 역량평가’ 서비스를 통해 서비스 기획, 마케팅·전략, IT·개발 등 직무별 실무 과제 형태로 구현돼 있다. 실제 업무 환경과 유사한 조건에서 AI를 활용해 문제를 해결하는 능력을 실시간으로 측정할 수 있으며, 도입을 검토하는 기업과 기관은 프로그래머스 홈페이지에서 데모 체험용 코드를 받아 솔루션을 직접 체험할 수 있다.

임성수 그렙 대표는 “많은 기업이 AI 역량을 정의하지 못했던 이유는 눈에 보이지 않는 역량을 정량화할 명확한 기준이 없었기 때문”이라며 “직무별 행동 지표로 AI 활용 단계를 측정하는 ‘AI 역량 루브릭’을 도입하면 교육 투자와 채용, 조직 진단이 하나의 일관된 성과 기준으로 연결될 수 있을 것”이라고 밝혔다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network