[출근했습니다] 누가 ‘데이터 라벨링’을 디지털 노가다(?)라 했는가
기자가 어느 스타트업의 일일 직원이 됩니다. 출근부터 퇴근까지, 시간 꽉 채워 직원들과 함께 업무를 보면서 이 회사가 어떤 고민을 갖고 무슨 일을 하는지, 추구하는 가치가 무엇인지 등을 알아보려 합니다. 하루 출근했다고 회사를, 산업을 모두 알 수는 없겠죠. 다만, 한 시간 만나 짧게 인터뷰하는 것보다는 조금은 더 많은 것을 보게 될 수 있지 않을까요? 기자의 노동력이 큰 도움은 안 되겠지만, 일손이 필요한 곳(?)이라면 언제든 불러주세요.
두번째 출근지, ‘크라우드웍스’는 어떤 곳?
인공지능이 제 역할을 할 수 있도록 학습 데이터를 수집하고 가공, 생산하는 온라인 플랫폼을 만든다. 쉽게 말하면 데이터를 수집하거나 가공하고 싶은 회사가 이 일을 크라우드웍스에 의뢰한다. 그러면 크라우드웍스는 자사 플랫폼에 등록된 작업자들에게 해당 일감을 공개한다. 작업자들은 여러 일감 중 자신의 구미에 맞는 것을 골라 일하고 대가를 받는다. 즉, 크라우드웍스는 데이터를 가공하고 싶어하는 회사와, 일자리를 찾는 이를 중개해주는 역할을 하는 곳이다.
이 회사는 연쇄창업가인 박민우 대표가 과거 자신이 창업한 인공지능 회사에서 쓴 맛을 봤던 역전의 용사들과 함께 다시 한 번 도전해 만들었다. 같은 인공지능이라고 해도 그때는 틀렸던 것이, 지금은 맞는 일이 됐다. AI 학습을 위해 대다수 기업이 데이터 가공을 원한다. 데이터 라벨링 하는 회사들이 물을 만난 것이다. 크라우드웍스의 모토는 “불가능한 데이터는 없다”로, 도대체 이런 것까지 수집하고 가공하는 것이 가능한가 싶은 여러 데이터를 취급한다.
여러모로 운도 좋았다. 네이버의 시드 투자를 받아 처음부터 대규모 데이터를 다루는 ‘레퍼런스’ 확보에 성공했다. 이를 양분 삼아, 삼성전자와 LG CNS, SK텔레콤과 KT 등 대기업과 IT 기업이 고객사에 이름을 올렸다. 2017년 창업후 3년 만에 누적 121억원의 투자를 받았고, 약 16만명의 작업자가 크라워드웍스 플랫폼에 등록해 그동안 700여개의 프로젝트를 수행했다. 특히 정부가 비대면 시대, ‘디지털 뉴딜’을 위한 공공 일자리를 확보하려 하는데 인공지능 학습을 위한 ‘데이터 라벨링’이 그에 맞는 일 중 하나로 꼽힌다. [/box]
[프롤로그]
출근 전. 시작은 자신만만했다. 누구나 맞기 전에는 그럴싸한 계획이 있는 것처럼.
[1막. 근로계약서를 쓰다]
8월 25일 오전 9시 15분. 사전에 이메일로 전달받은 일과표를 읽으면서 크라우드웍스가 입주한 패스트파이브 강남점에 들어섰다. 내 오늘 할 일이 무엇인가. 얼핏 일과표가 ‘데이터 가공의 이론과 실습’에 관한 강의 시간표로도 보였다. 두 시간 단위로 빡빡하게 배정된 일정을 보며 긴 하루를 예상했지만, 큰 걱정은 하지 않았다. 출근 전 주변인들의 말 때문이었다.
“어? 데이터라벨링? 그냥 디지털 노가다 하는 곳 아냐? 그냥 고양이 사진엔 고양이, 개 사진엔 개 라고 표시하면 되지 않겠어?”
껄껄껄. 아는 만큼 보이고, 모르면 그만큼 용감한 법이다. 그 사실을 깨닫게 되는데는 두 시간이 채 걸리지 않았다.
아직 아무 것도 모를때, 그러니까 출근한지 10분이 채 되지 않은 시점에서 한 장의 계약서를 받았다. 프리랜서로 오늘 하루 여덟시간 시급 1만원에 일한다는 근로계약서다. 오, ‘일알못’ 에게도 일당이 주어지는구나! 까만 글자가 빽빽한 계약서에 사인하고서는, 곧바로 회사와 서비스에 대한 교육에 들어갔다. 크라우드웍스의 신입사원들은 입사 첫날, 직무 교육을 받는다고 했는데 그 일환 중 하나다.
그런데 교육에 들어온 분들이 고오급 인력이다. 회사 소개를 맡은 이는 김대영 최고운영책임자(COO)로, 박민우 대표와 20년 전에 ‘메타와이즈’라는 인공지능 스타트업을 만들었다가 아픈 기억을 쌓은 동지다. 이후에 야후코리아, 제일기획, 옐로디지털마케팅 등에서 일했는데, 이번에 다시 한 번 박민우 대표를 믿고 데이터 스타트업에 합류했다.
“크라우드 소싱은 기존의 AI 학습 데이터 전처리 방법에 비해 작업 소요 시간을 크게 줄였어요. 프로젝트마다 다르지만, 기존에 기업들이 직접 작업했을 때 평균 9개월이 소요됐던 데이터 가공 작업이 크라우드웍스에서는 3개월이 걸렸죠. 계약직 인력 10명을 고용해서 한 일을, 크라우드웍스에서는 177명의 작업자가 참여했거든요. 예를 들어 네이버의 번역 서비스 ‘파파고’의 언어 데이터 가공에도 저희가 참여했습니다.” – 김대영 COO
지금까지 인공지능 학습을 위한 데이터 전처리를 하는 기업들은 많았다. 크라우드웍스의 독특한 점이라면, 이작업을 ‘크라우드 소싱’ 방법으로 해결한다는 점이다. 특별히 인공지능 기술을 개발하지 않는 곳이라고 하더라도 데이터는 필요하다. 그런데 데이터를 잘 활용하려면 목적에 맞게 데이터를 분류하고 가공하는 작업이 필요하다. 하지만 모든 기업이 관련 인력을 채용할 여건이 되진 않는다.
크라우드웍스가 파고드는 빈 공간은 여기서 생겨난다. 작업자를 ‘크라우드소싱’을 통해 확보한다면, 직접 채용보다 적은 비용으로 빠르게 데이터를 가공할 수있다. 단, 이 경우 ‘인하우스’ 작업에 비해 퀄리티를 담보하기 어렵다는 문제가 생긴다. 크라우드웍스 측은 이 문제를 ‘검수 프로세스 추가’로 해결한다.
검수는 작업자 중에서 그동안 성과가 좋았던 이들이 맡는다. 작업자가 분류한 데이터를 검수자가 보고 문제가 없으면 OK, 문제가 있으면 반려시킨다. 반려된 결과물은 재작업을 통해 규정에 맞게 수정, 보완해야 통과된다. 프로젝트의 퀄리티를 유지하기 위한 방안이다.
여기까지 들었을 때도 “오, 그렇구나” 싶었다. 아직 난이도를 보지 않았기 때문이다. 긴장이 되기 시작한 건 이준호 플랫폼 기획팀장을 만난 이후부터다. 내가 해야 하는 일이 다음과 같은 일이라는 걸 조금씩 눈치챘기 때문이다.
물론 초보자에게 곧바로 이런 일이 주어지진 않는다. 초보자가 이런 일을 맡는 것은 노동자와 플랫폼 양쪽 모두에게 손해다. 초보자에게는 초보자다운 일이 주어지겠지만, 나는 이미 쫄았다.
세상 차분한 이준호 팀장이 작업 가이드에 대한 설명을 해줬다. 작업 프로세스부터 작업자가 지켜야 할 태도 등이 여기에 포함된다. 작업자들이 플랫폼에서 맞닥뜨리는 데이터의 종류는 주로 이미지, 영상, 텍스트, 음성 등인데 그 종류에 따라 해야하는 일이 다르다. 예컨대 이미지 데이터의 경우 사진 속에서 필요로 하는 요소만 아주 정확하게 바운딩(네모 박스로 물체를 표시하는 것) 하는 업무가 많다. 꼼꼼함과 성실함이 매우 요구된다. 설명이 끝나갈수록 마음이 조금씩 불안해졌다. 교육 이후에 실습이 예정되어 있기 때문이다.
[2막. 피 말리는 테스트 시간]
문제) 다음 사진을 보고, 사진 속 인물의 심경 변화를 논하시오.
(답: _________________________________________________________________________________________________)
(해설: 사진 속 인물의 표정은 처음에 ‘자신만만’에서 ‘당황’ 그리고 ‘좌절’로 바뀐다. 인물은 예상치 못한 문제의 난이도에 크게 당황한 것으로 추정된다. )
크라우드웍스에서 작업자로 일하려면 테스트를 통과해야 한다. 이미지 안에서 필요한 요소만 추출해 표기하는 ‘바운딩’과 긴 지문 안에서 필요로 하는 대답을 찾아내야 하는 ‘텍스트’ 부문 테스트다. 두 개 모두 초급과 중급을 통과하면 더 많은 프로젝트가 열린다.
위 사진은 바운딩 중급 테스트용 화면 중 하나다. 사진에서 자동차만을 골라내서 바운딩을 하고, 차량 태그를 걸어야 한다. 정확하게 자동차만 네모 박스 안에 넣어야 한다. 1mm라도 박스가 작거나 크면 안 된다. 일하는 사람을 괴롭히려고 벌칙을 주는 것은 아니고, 그렇게 해야만 인공지능이 정확하게 자동차를 분별할 수 있기 때문이다. 알긴 알지만 눈이 빠질 것만 같고 노트북의 작은 화면이 원망스럽다. 그렇다. 이 작업을 하려면 무조건 큰 모니터가 있어야 한다. 터치패드로 작업할 생각일랑 말고 마우스를 준비하라. 그렇지 않으면 성격을 버릴 수 있다.
아, 나는 눈이 아파 못하겠소. 텍스트로 넘어가겠다고 선언했다. 아무래도 텍스트는 지문을 읽고 정답을 찾아내는 거니까 최소한 눈은 아프지 않겠지, 라고 스스로 위로하며 마음의 평화를 찾고 있던 순간이었다. 뒤에서 촬영을 하던 박리세윤PD의 한 마디에 멘탈이 다시 흔들렸다. “선배, 선배는 기자니까 텍스트는 껌이겠죠? 못하면 이건…” 다시 초긴장 모드다. 이게 수능도 아닌데 떨린다. 텍스트 문제 제대로 못풀면 지능을 의심받게 될 것이 뻔하다. 만약 정답을 틀려 ‘반려’라도 뜬다면… 아 질끈 눈이 감긴다.
우려했던 일이 벌어졌다. 하늘은 내 편이 아니었다. 뒤에서 비웃는 소리가 들린다. 그 순간 테스트를 옆에서 지도한 이보람 교육 담당 매니저가 내 등을 토닥였다. 아니, 괜찮아요. 나는 괜찮아요. 그렇게 따뜻한 눈빛으로 나를 바라보지 말아요.
텍스트 작업이 어려운 이유는, 질문에 맞는 아주 정확한 답을 찾아야 한다는 데 있다. 출제의도를 파악했다고 해서 정답과 직결되는 것은 아니다. 프로젝트마다 요구하는 것이 다른데, 어떤 프로젝트는 “명사로 답이 끝나야 한다” 처럼 맞춰야 할 사항이 분명하다. 따라서 가이드 숙지가 중요하다. 텍스트의 난이도도 모두 다르다. 어떤 지문은 법조항이 나오기도 한다. 익숙하지 않은 문장 속에서 필요한 정보를 빠르게 빼내는 게 관건인지라 문제를 차분히 정확하게 읽어야 한다. 마음이 급하다고 해서 대충 읽었다간 반려의 홍수에서 헤어나올 수 없다.
어찌어찌 테스트를 대략 마무리했다. 한시간 반 동안 나는 테스트 작업을 통해 크라우드웍스 플랫폼에서 1220포인트를 벌었다. 5000포인트부터 현금으로 환전이 된다. 1포인트 당 1원이다. 홈페이지 첫 화면엔 주간, 또는 월간으로 누가 가장 많이 벌어갔는지 표시된다. 지난 한 주간 가장 많이 번 이는 40만원 정도의 수입을 냈다. 나같은 초보의 속도로는 어림도 없지만, 일이 익숙해지고 레퍼런스가 쌓여 더 좋은 프로젝트가 열린다면 가능한 일이다. 아마도 저이는 시간을 꽤 들여 성실하게 이 일에 임했을 것이다. 작업자로 능력을 인정받으면 검수 일도 주어지는데, 작업자 대비 검수자 수가 적으므로 그 일을 맡게 될 때 수입도 늘어난다는 설명을 들었다. 초반에는 20대 여성 작업자가 많았는데 최근엔 데이터 라벨링을 부업으로 하는 직장인도 꽤 늘었다고 한다.
11시하고도 40분이 되어갈 즈음, 자꾸 시계에 눈이 갔다. 힐끔힐끔. 언제쯤 저 시침과 분침이 가장 높은 곳에서 함께 할까. 인간적으로 직장인은 점심 시간 때문에 버티는 것 아닌가. 내 마음을 읽은 사수가 “밥 먹으러 가자”고 말을 해줬다. 야호. 점심은 중식. 크라우드웍스의 전통이라는데, 신입직원이 들어오면 팀 단위로 근처 중국집에 간다고 한다. 마스크를 벗은 (일일) 동료들의 모습을 처음 봤다. 업무 얘기가 아닌, 소소한 잡담을 나누며 옆 자리 동료와 밥을 먹는 것도 신입직원에게는 회사를 이해하는데 도움이 된다.
[3막. 세상에 이런 데이터를?]
밥을 먹고 돌아왔더니 조금 기운이 생겼다. 오후 근무는 클라이언트와 커뮤니케이션을 담당하는 사업개발팀에서 시작이다. 회의실에서 김지선 사업개발팀장을 만났다.
클라이언트들이 주로 어떤 데이터 수집이나 가공을 요청하느냐고 물었다. 김지선 팀장은 “정말 다양한 요구가 있다”고 말했다. 예를 들어, 초급 테스트를 통과한 나도 ‘고양이 영상 수집 – 걷기’ 의뢰를 볼 수 있었다. 이 의뢰는 어떤 클라이언트가 요구한 것일까?
“고양이 로봇을 만드는 곳에서 의뢰한 거예요. 로봇이 고양이의 움직임을 구현하기 위해서는 학습자료가 더 많이 필요하기 때문이죠.”
깜짝 놀랐다. 수집 의뢰를 보면서 이 사진이 왜 필요한지에 대해서는 생각을 못했다. 이 이야기는, 크라우드웍스에 올라온 일감을 잘 살펴보면 최근에 기업들이 어떤 데이터에 관심을 갖고 있는지를 넘어서 어떤 사업이나 서비스를 준비 중인지도 감을 잡을 수 있다는 이야기가 된다.
위 사진을 보면 알겠지만, 음성 수집 요청도 꽤 많다. 여기에는 ‘조용한 환경에서 사투리로 나누는 대화’를 수집하는 요청이 올라와 있다. 인공지능 스피커가 필요로 하는 데이터들이다. 인공지능 스피커가 처음 개발됐을 때는 학습을 시킬 음성 데이터가 많이 부족했고, 이를 개발자들이 직접 자신의 목소리를 녹음하는 것으로 충당했다. 즉, 인공지능 스피커가 공부한 목소리는 30대 남성 개발자의 것이 대부분이라는 이야기다. 따라서 처음에 인공지능 스피커는 여성이나 어린이, 노인의 목소리 그리고 사투리 등을 잘 인식하지 못했다. 세상에 30대 남성만 사는 것도 아니고, 인공지능이 이들에게만 서비스하는 것도 아니니 당연히 더 많은 데이터를 확보해야 한다. 다양한 음성 데이터를 기업들이 찾는 이유다.
김지선 팀장과의 대화는 매우 매력적이었는데, 아주 재미있는 사례가 많아서다. 예컨대 때때로 단기간에 특정 단어에 대한 발음 데이터가 많이 필요한 경우가 있다. 신곡 발표를 앞두고도 이런 일이 일어난다. 올 여름을 강타한 ‘싹쓰리’는 그동안 사람들이 많이 썼던 단어는 아니다. 하지만, 이 곡은 발매 하루만에 음원 차트 1위에 올랐다. 여기저기서 음성 스피커에 “싹쓰리 틀어줘”라는 말을 할 것을 발매전부터 예상할 수 있다. 이럴 때는 신곡 발표 사나흘 전에 학습 데이터를 모아 공부를 시킨다. 발화가 많아질 것을 대비한 움직임이다.
김 팀장은 “다양한 상황을 수집해야 하는 때가 많은데 이를 설계하는 것이 어렵다”고 말했다. 그리고 나는 이어서, 아주 충격적인 얘기를 들었다. 어떤 기업은 글쎄 사람의 대변 사진을 모은다고 했다. 건강 상태 데이터를 확보하기 위함이었다. 화장실에서 자신의 것을 찍는다는 이야기가 놀라웠는데, 이건 약과였다. 이 데이터가 클라이언트의 요구에 적합한 것인지를 검수하는 이들… 그만 말하겠다. 모두들 노고가 많다.
여기서 하나의 의문이 조금 풀리는 기분이었다. 데이터 라벨링을 두고 ‘디지털 인형 눈 붙이기’ ‘금방 없어질 직업’이라고들 이야기하는데, 그럼에도 불구하고 이 산업에 투자사들이 관심을 갖는 이유 말이다. 이게 쉽지 않은 일인게, 기업들이 원하는 데이터의 난이도가 점점 올라가고 있어서다.
폐암 사진 학습을 시키기 위한 데이터 라벨링은 의사가 아니고서야 하기 어려운 작업이다. 원 데이터 자체를 구하기 어려운 경우도 있다. 서버실을 운영하는 기업이 화재를 미연에 방지하기 위해 “서버실에 불이 났을 때 사진”을 구하는 경우다. 컴퓨터가 차곡 차곡 쌓인 곳에서 불이 난 사진이 많아야 AI가 공부를 할텐데, 이런 사진을 어디서 구하겠는가. 신조어가 나올 때마다 학습을 위한 데이터 수집은 필요하고, 계속해 새로 생기는 맥락을 풀이할 수 있는 데이터도 계속해 생겨난다. 또, 이제는 굳이 첨단 IT 기업이 아니라고 하더라도 데이터 가공은 필요한 일이다.
이런 저런 설명을 듣던 차에, 운이 좋게도 클라이언트와 화상 미팅을 잠깐 지켜볼 기회도 얻었다. 일반적인 미팅은 아니었고 지역의 여성인력개발센터에서 지역내 일자리 창출을 위한 교육 의뢰 건이었다. 크라우드웍스는 때때로 클라이언트의 요청으로 특정인들만 대상으로 하는 프로젝트를 열기도 하고, 온오프라인 교육을 하기도 한다. 비대면 일자리 요구가 많아지는 상황에서 크라우드웍스도 이와 같은 의뢰를 가끔 받는다고 했다.
[4막. 대표와의 미팅]
신입사원 주제에 대표 면담을 신청했다. 반나절 넘게 일하면서 대략적으로 이 회사가 하는 일은 알게 됐으니, 이제 앞으로의 계획을 물어봐야겠단 생각이 들었다. 내게 할당된 시간은 단 10분. 그 안에 회사에 대해 궁금한 걸 다 물어야 한다. 오후 세시. 직장인들이 가장 졸려할 시간에 대표실의 문을 두드렸다.
‘데이터 라벨링’으로 창업하신 이유가 있나?
AI로 뭘 하긴 해야겠는데, 과거에 실패한 트라우마(?) 때문에 뭐가 핵심일까 고민을 했다. 아무리 좋은 AI 기술이 개발이 되어도, 어떤 데이터를 어떻게 가공하느냐에 따라서 성능이 좌우될 거라는 생각이 들었다. 데이터에 집중하자고 생각을 했다.
그 중에서도 데이터 가공을 해야겠다고 착안한 계기는?
해외에 이미 이런 서비스가 많이 있었다. 해외 쪽 서비스를 많이 벤치마킹 했는데 이 서비스를 우리나라 AI 기업이 사용하지 못한 이유가, 우리같은 전수 검수 시스템이 없다. 데이터의 퀄리티를 보장하지 않는 것이다. 한국은 미국보다 AI 기술이 낮으므로, 이 기술을 단기간에 끌어올리려면 모델에 대한 성능을 높이거나 데이터 품질을 올려야 한다. 아무래도 데이터 품질을 올리는 게 빠르고 쉬운 방법이다. 그래서 데이터 품질을 확보하는 쪽으로 한 거다.
정부의 ‘디지털 뉴딜’ 추진이 지금 크라우드웍스의 사업에 미치는 영향은?
디지털 뉴딜의 핵심 중 하나가 보편적으로 많은 사람에게 수혜를 가져가게 하자는 취지다. 과거의 공공근로 사업과 비슷한 취지다. 그러나 과거에는 제한된 인원이 제한된 공간에서 제한된 시간에 노동을 하고 대가를 받는 구조였다면, 지금같은 상황에서는 제한된 공간에 있는 곳조차 문제가 되므로 가급적 많은 사람이 공정하게 노동력을 배분하려면 크라우드소싱이라는 방법을 쓰는게 가장 합리적이다. 저희 의도와 상관없이 시대적 상황 때문에 결국 디지털 뉴딜이 크라우드소싱으로 갈 수밖에 없기 때문에 저희가 간접적 수혜를 받고 있다. 정부의 디지털 뉴딜 관련 프로젝트로는 딥페이크쪽과 랜드마크, 언어 음성 수집을 하고 있다.
크라우드 소싱과 관련해서 “디지털 노가다 아니냐, 앞으로 몇년 내 없어질 사업 아니냐” 같은 비판을 하는데
아마 체험해봐서 알겠지만, 생각보다 힘들다. 난이도가 꽤 높다. 이게 모르는 사람들은 동일한 업무를 반복해 하므로 노가다라는 표현을 쓰는데, 이 동일한 노동의 수준이 어떤지는 생각을 안 하는 거다. 현재 존재하는 노동 중에 동일한 업무를 반복하지 않는 것은 몇개나 있을까? 대부분 70~80%는 동일한 업무를 반복하고 있다. 그런데 이거는 (업무 반복의) 주기가 짧으니까 더 폄하하는 느낌을 받는다.
그리고 해보면 이게 쉽지 않다. 어려워서 못하지 지겨워서 못하는 경우는 많지 않다고 본다. 시간이 지날수록 인공지능의 수준이 높아지면 데이터의 수준도 같이 높아져야 한다. 그러면 난이도는 더 높아져야 한다. 이제는 특정 전문 분야 종사자가 아니면 못하는 일들, 예를 들어 회계사 변호사 의사가 해야 하는 작업만 필요할 수도 있다. 점점 난이도는 높아지고 거기에 맞춰 자기 능력도 끌어올리지 않으면 이게 쉽게 단순하다고 해서 할 수 있는 일이 아니라고 본다.
시간으로 보면, 글로벌 리서치 자료에서 앞으로 10년 동안은 현재 같은 방식으로 일을 할 수밖에 없다고 한다. AI 기술이 어느날 갑자기 확 높아지지는 않기 때문에 지금같은 방식으로 결국은 난이도와 품질을 높여서 좀 더 고도화된 AI 모델을 만드는 걸로 갈 거기 때문에 수준이 높아질 거고, 대신 지금같이 많은 수요가 필요할 거냐는 것은 앞으로 한 3~4년 후에 피크가 오겠지만 그 뒤로는 종사자 수는 상대적으로 줄어들 수 있다. 그렇지만 난이도는 높아질 거다.
10년 후에도 데이터 수집이라는 것은 필요할텐데 지금과 같은 방식은 아닐 거라는 예상 아닌가?
그때는 아마 지금까지 만들어진 모델들을 검증하고 문제점을 찾아주는 방식으로 고도화되는 쪽으로 갈 것 같다. 그리고 10년 뒤의 우리의 직장이나 근무형태가 어떻게 바뀔지 예측하는 것은 상당히 어려운 일이다. 지금 같은 상황도 10년 전에는 예상하지 못했다. 가고자 하는 방향은, 저희 풀 안에 있는 15만명이 -10년 후에는 100만명이 될 수도 있겠다 – 우리 플랫폼에서 했던 역할들, 능력치를 우리가 로그로 잘 분석해서 이 사람이 무슨 일을 잘 할 수 있는지 평가해줄 수 있는 시스템으로 가면 새로운 형태의 업이 필요하더라도 우리 데이터를 기반으로 충분히 좋은 사람을 제공해줄 수 있는 산업으로 전환할 수 있을 거라고 본다.
새로운 형태의 헤드헌터라고 보면 될까?
그렇다. 데이터 기반의 HR 서비스다.
바인딩이나 텍스트 분석처럼 일의 형태가 정해져 있는데 거기서 세분화된 업무 추천이 가능할까?
지금까지의 직업에서 채용을 할때는 학력이나 경력을 주로 봤다. 그건 정성적인 추측에 의해 사람을 채용하는 구조다. 그런데 저희는 이 사람이 하루 몇 시간을 일했고 데이터에 대한 집중력이나 정확도가 어느 정도인지, (데이터 분류와 가공에서)이미지를 많이 했는지 음성을 많이 했는지, 언어 구사 능력은 얼마나 뛰어난지 이런 데이터들, 즉 기능에 대한 데이터를 수집을 한다. 그런데 향후에 필요한 데이터가 정성적인 사람의 평가 데이터가 필요하다면 기존의 취업 사이트에서 채용이 이뤄질 거고, 저희는 정량적 데이터를 기반으로 사람이 필요한 경우에 우리가 추천한 사람이 더 적합할 거다. 그래서 저희의 경쟁사는 잡코리아가 아니라 알바몬이 되는 거다.
채용 서비스 외 사업 확장 계획은?
두 가지 분야를 준비하고 있다. 하나는, 디지털 뉴딜 사업 때문에 저희 같은 회사가 엄청나게 생기고 있다. 그런데 이 사업은 누구든지 당장 지원금을 갖고 주어진 데이터를 가공하고 저장해서 전달하면 되는 거라 누구든 진입 가능하다. 그러니까 뭐가 문제냐면 여러 사람의 데이터를 한곳에서 관리하고 결과 품질을 지키면서 전달까지 이뤄져야 하는데 이게 다 수작업으로 이뤄질 수밖에 없다. 플랫폼이 없으므로.
그래서 저희가 아예 플랫폼을 임대해주려 한다. 우리 플랫폼을 임대해서 작업자를 등록시키고, 고객이 원하는 작업 환경을 만들고, 평가 데이터도 직접 관리하고 비용도 지급하는, 저희 회원을 제외한 모든 기능을 쓰게 해주는 SaaS 서비스를 지금 만들었다. 사용료를 받고 파는 거다. 슬랙이나 지메일을 월 정액 내고 쓰듯, 저희 플랫폼도 구독 모델로 비용을 내고 쓰는 거다. 글로벌 진출에서도 SaaS 전략을 쓸 계획이다.
두번째는 채용 모델이다. 우리 플랫폼을 빌려서 쓰더라도 작업자가 필요하다. 작업자 채용을 하려면 결국 알바몬에 가서 고용 광고를 올릴텐데, 이 영역에서 우리가 할 수 있는 일이 있다. 이미 확보한 작업자와 이들에 대한 평가데이터가 있으니까 각 프로젝트에 적합한 이를 추천해달라고 하면 우리가 그에 맞는 사람들을 수수료를 받고 추천해주는 거다. ‘Jobs’ 서비스라고 한다. 하나는 사스, 하나는 잡스다.
글로벌로도 스케일업이나 라이언브릿지 같은 회사들이 잘하고 있다. 크라우드웍스도 글로벌로 진출할 생각이 있다고 했는데 경쟁력은?
저희가 가진 제품의 특성은 ‘퀄리티’ 중심과 ‘작업자’에 대한 매니지먼트, 이 두가지가 중점이다. 글로벌 기업들은 오픈마켓이라 매칭이 키이기 때문에, 다르다. 그쪽은 매칭에 따른 수수료를 챙기는 구조고, 우리는 작업 필요한 전체 영역을 다 해주는 서비스다. 글로벌 기업들은 ‘검증’ 단계가없기 때문에 작업 결과물의 퀄리티에 대해 누구도 책임지지 않는다.
[5막. 프로젝트, 직접 개설해봤다]
인터뷰에 원래 예상했던 시간의 두 배를 썼다. 대답을 듣다보니 계속 궁금한게 생긴 탓이다. 20분의 시간을 신입에 할애해준 대표님께 감사. 다시 마케팅팀에 마련된 내 자리로 돌아와 이번엔 프로젝트를 직접 개설하는 방법에 대해 들었다.
혹시 내가 어떤 데이터를 모으는지, 어떤 사업을 하려 하는지 외부에 알려지는게 싫다면 직접 프로젝트를 개설해도 된다. 이 오픈 플랫폼을 내부에서는 ‘코드 강남’ 이라고 불렀다. 프로젝트를 어떻게하면 조금 더 쉽게 개설할 수 있을 것인가를 고민해 내놓은 결과물이다. 개발자의 업무 부하를 줄이기 위한 방편이기도 하다. 이는 앞서 박민우 대표가 설명한 SaaS 서비스와 유사한 개념이다. 기본적인 구성 요소를 블록으로 마련해놓았기 때문에 필요한 것을 끌어다 쓰면 된다. 간단한 작업은 금방 만들 수 있다.
사업개발팀에서 클라이언트와 만나 프로젝트를 수주하면, 데이터 사업팀에서 이 프로젝트를 구체화해 플랫폼에 띄운다. 어떤 구성요소를 가지고 작업화면을 디자인할지 등을 바로 데이터사업팀에서 맡아 하는 것이다. 염다혜 매니저는 “작업자들이 작업을 편하게 할 수 있도록 디자인하는 것이 중요하다’면서 “또, 프로젝트의 성향에 따라서 한 번에 데이터를 처리할지, 여러 차례로 나눠서 진행할 것인지 등을 결정하는 것도 중요한 일”이라고 설명했다.
오후 3시 25분. 이때쯤, 나는 지쳤다. 마침 나의 사수는 회의에 들어가야 한다고 했고 내게 잠깐 자유시간이 주어지나 싶었다. 그러는 내게 종이 한 장이 주어졌고 지옥이 시작됐다. 회의를 들어가는 팀장이 내게 “글로벌 경쟁사 리스트 조사” 혹은 “잠재적 B2G 사업 고객으로서 정부 예산 조사” 같은 걸 시키고 갔기 때문이다. 문제는 이 정부가 대한민국 정부가 아니라는 점이며, 이 기업이 대한민국 기업이 아니라는 것이다. 영국과 독일, 필리핀, 베트남 중심이라니. 저, 다시 바운딩 할게요……….
그러던 나를 구해준 이가 장정식 CTO다. 그는 진지한 목소리로 기술을 잘 모르는 신입에게 상세하게 크라우드 소싱 플랫폼이 기술적으로 어떤 과제가 있는지를 설명했다. 그에 따르면 크라우드 소싱 플랫폼은 겉으로 보기엔 단순해보여도 기술적으로는 구현에 난이도가 있다. 예를 들어 클라이언트의 의뢰 사항을 작업자에 할당하는 것이나, 실시간으로 작업의 반려와 재할당을 시스템에 반영하는 것 등은 개발자 입장에서는 굉장히 흥미로운 주제라고 했다. 또, 작업자들이 실제로 작업을 하면서 중간에 저장을 하거나, 혹은 그대로 멈춰버리기도 하는 등 여러 변수가 생겨 업무의 복잡도도 높다.
따라서 개발 조직은 크라우드웍스에 매우 중요하다. 크라우드웍스는 연말까지 100명 규모로 채용을 늘릴 예정인데, 물론 개발자도 더 찾는다(지난해 30명 규모였던 크라우드웍스는 올해 80명으로 몸집을 키웠다). 장 CTO는 “기본적으로 개발하는 것을 정말로 좋아하는 사람, 본인이 엔지니어의 방식으로 문제를 푸는 것 자체를 즐거워하는 이를 찾는다”고 말했다. 특히 “창의적인 접근을 하는 사람”을 반긴다고 했으니, 관심 있는 사람은 지원 바란다.
앞서 말한 지옥의 보고서를 마케팅 팀원들과 공유하는 걸로 일과를 마무리했다. 크라우드웍스는 무대를 글로벌로 넓힌다는 계획을 갖고 있다. 이미 영국 등에 진출했고, 앞으로는 베트남 등 동남아시아 지역에도 집중할 계획이다. 하루를 정말 하얗게 불태웠다. 진짜로 월급 주는 곳보다 이 곳에서 더 열심히 일했다. 앞으로 누군가 데이터 라벨링을 단순노동이라 말한다면, 나는 조용히 이곳의 홈페이지 주소를 문자로 보내겠다. 자, 통과하면 그때부터 다시 얘기를 나눠봅시다.
[지금까지 출근한 곳]
[출근했습니다] 밭뙈기 하나 없이 감자 시장 1위된 농테크 스타트업 ‘록야’
<공동취재> 바이라인네트워크 남혜현 기자 smilla@bylin.network
바이라인네트워크 박리세윤 PD dissbug@byline.network
[무료 웨비나] API연결만으로 가능한 빠르고 쉬운 웹3 서비스 구축
- 내용 : API 연결을 통해 웹2와 웹3를 끊김 없이 연결하는 최신 융합 기술과 이를 통한 적용 사례를 다룹니다.
- 일시 : 2024년 10월 10일 (목) 14:00 ~ 15:10
후아..그래서 저 텍스트 답이 뭐죠? 반려만 10번당하는거같아요
“노가다”가 난이도가 쉬워서 폄하하는 말이 아닌데요..
오히려, 단순 반복에 업무 강도가 더 높다는 뜻으로
노가다라고 비유를 했다면, 적당한 표현이 아닌가 싶네요.
재미있게 잘 보고 있습니다.
배울점이 아주 많네요.
이런 기사 너무 좋다. 여기저기 찾아도 정보가 없어 며칠을 찾았는데
여기서 한방에 다 해결하네
기자님도 수고가 많으시네요
이런 업체와 기술, 업무를 한눈에 알수 있는 매우 우수한 컨텐츠네요
너무 좋음
요새 부업으로 핫한 데이터 라벨링이 무척 궁금해서 검색을 해봤는데 속시원히 알려주는 곳이 없던 차에..
기자님의 취재을 통해서 자세하게 알게 되었네요. 간만에 정말 정독하고 봤습니다.
데이터 라벨링 별로 어렵지 않을 거라 생각했는데 만만치 않네요.
재치있고 유익한 기사 잘 봤습니다!