[현장] “유통의 문제요? 데이터를 알면 풀 수 있어요”

“연구를 실제 데이터가 아니라 더미(가짜 데이터)로 하다 보면 의미를 추출하는 데 어려움이 많은데, 이번에는 실제 데이터를 활용해 유통과 관련해 의미를 찾아낼 수 있는 좋은 경험이었다.”

지난 12일, 서울 신촌 에피소드369에서 한국전자정보통신산업진흥회(KEA)가 ‘유통데이터 활용 경진대회’를 열었다. 225개 팀과 경쟁을 뚫고 올라온 10팀의 본선 참가자 중, 단 두 팀에 주어진 대상(산업통상부 장관상)을 탄 ‘포항항만만세(포항공과대학)’ 소속 봉재우 씨는 실제 데이터를 써볼 수 있는 경험을 주는 기회의 중요성을 수상소감으로 말했다.

올해로 4회째를 맞는 유통데이터 활용 경진대회는, 실제 유통 기업에서 나오는 데이터를 참가자에 공개해 현장의 어려움을 풀 수 있는 단초를 찾으려 열린다. 외부에선 쉽게 구하기 어려운 현장 데이터를 가지고 연구를 해볼 수 있으므로, AI를 활용해 데이터를 분석하려는 이들이 관심을 갖는다. 특히, 학교에서 데이터 분석을 배우기 시작한 학생들이 경험을 쌓을 기회로 본다.

공공도 이를 잘 알고 있다. 현장을 참관한 산업통상자원부 김태희 유통물류과장은 “데이터는 유통과 물류의 혁명을 만들어 낼 수 있는 인프라이자 핵심”이라면서 “젊고 패기 넘치는 참가자들이 데이터와 AI를 활용해 산업에 있는 이들이 비즈니스 모델을 바꿔나갈 수 있는 창의적 아이디어를 내달라”고 주문했다.

이 젊은 참가자들이 AI를 가지고 데이터를 어떻게 해체하고 결합해 문제를 풀려 했을까. 현장으로 들어가보자.

수요 예측 부문

주최 측이 참가자들에게 특성이 다른 물류 센터 두 곳(A/B)의 매출, 매입 데이터를 사전에 공유했다. A센터는 매출이 매월 일정하게 발생하며 재고를 미리 확보하는 대량 선매입 형태를, B센터는 매출이 특정 기간에 집중되며 필요할 때마다 재고를 조금씩 보충하는 특징을 가졌다. 이 데이터를 바탕으로 본선에 오른 팀들의 발표 내용과, 전문 심사위원들의 코멘트 일부를 공유한다. 심사위원들은 주로, 데이터 전처리 방법, 모델 선정 기준, 외부변수 활용 효과, 이상치 처리 방식 등에 대해 질문했으며, 이상치 처리에 대해서는 모델 안정성 확보와 실제 데이터 반영 간의 균형점 찾기를 중요한 과제로 제기하기도 했다. 데이터를 다루고 싶은 자, 본선 팀들의 아이디어와 심사위원들의 날카로운 조언을 참조하면 좋겠다.

사고팔조 팀(김명선, 모지윤, 방혜원, 이승규)은 ‘매입·매출 최적화 예측모델’을 설계했다. 사전에 주어진 A센터와 B센터의 데이터 특성 차이를 분석해 센터별 맞춤형 모델을 개발한 것. 먼저, 계절이나 시즌에 따라 매출 패턴이 반복되는 A 센터의 경우 초기 모델을 계절성을 반영하기 위한 시계열 모델(SARIMAX) 구조로 설정했고, 주최 측이 제공한 매입·매출 데이터 외에 외부 변수로 물류보관비, 기상관측, 공휴일 데이터와 소비자 물가지수 등을 활용했다. 이후 전년도 같은 달의 패턴을 과도하게 따라가는 과적합을 방지하기 위해 계절AR항(이전 계절의 값이 현재 계절의 값에 미치는 영향)을 제거하는 등의 하이퍼파라미터 튜닝을 거쳤다. 반대로 월말에만 매출이 집중되는 비주기적, 불규칙 패턴을 가진 B 센터는 시간의 흐름보다는 조건 기반 패턴의 학습이 중요하므로 비시계열 모델(Random Forest)을 택했다. 역시 외부 변수를 추가했고, 다른 달과 날짜 수가 다른 2월 가중학습 등의 조치를 처했다. 이를 통한 2025년 수요 예측 결과 A센터에서 생수·음료·건강 품목이 1월 3만 건에서 3월 4만 건으로 급증할 것을 예측했다.

사고팔조 팀은 데이터의 계절성, 지역성 특성을 반영해 현재 각자 처한 상황이 다름에도 동일한 방식으로 운영되는 유통센터의 문제를 해결하고자 했다. 다만, 두 센터의 데이터를 잘 비교하려면 유통되는 상품의 카테고리가 같도록 조정해야 한다는 심사위원의 지적도 있었다. 최정혜 연세대학교 경영대학 교수는 “소비자 입장에서 봤을 때 수요 예측을 위해서는 같은 음료라도 탄산이나 생수는 다른 단위”라면서 “분석을 할 때 어그리게이션 (Aggregation) 레벨이 다른 것에 대해서 고민해야 할 것”이라고 조언했다.

수요 예측 부문에서 대상을 받은 포빅스(FourBigs) 팀은 재고 리스크를 반영한 풀필먼트센터 최적화 수요예측 모델을 구축했다. 과잉이나 품절과 같은 재고 불균형 문제를 완화하기 위해서 ‘주 단위’ 수요 예측 기반의 재고 관리 체계를 구축하고, 재고 리스크를 계량화 해서 의사결정에 반영할 수 있는 ‘예측 프레임워크’ 설계를 목표로 했다.

이 팀이 주목한 부분은 ‘정확한 발주’를 위한 시스템이다. 따라서, 기존에 중분류로 되어 있던 품목을 소분류 수준으로 세분화했고, 신뢰도를 높이기 위해 데이터 집계 주기를 ‘주 단위’로 채택했다(일별은 변동성이 높고, 월별은 데이터 수가 적다고 판단). 이후 시계열적 패턴과 외부 요인을 반영하기 위해 시계열/ 기상/ 거시/ 이벤트 관련 파생 변수를 생성했다.

어떤 ‘모델’을 택했느냐는 중요한 부분이다. 과잉재고가 생기는 것을 더 큰 리스크로 봤고, 이를 반영하는 가중치 기반 ‘Custom sMAPE’를 설계했다. 예측 성능을 종합 평가하기 위해 통계적 모델(SARIMAX), 머신러닝 모델(XGBoost, LightGBM), 딥러닝 모델(LSTM, GRU) 등의 실험을 거치며 성능을 비교, 각 데이터셋에 맞는 최적 모델을 구축하려 했다. 그 결과, “과잉 입고 비율이 약 11.5% 감소, 리스크를 줄이는 효과”를 확인했다.

포빅스 팀의 경우 데이터 클렌징(사전처리) 과정에서 불필요 행이나 결측치를 처리하는 부분에 대한 질의가 있었다. 박춘남 닐슨아이큐코리아 전무는 “결측치 처리 기준과 결측치를 처리함으로써 전체 데이터에 미치는 영향도에 대한 부분을 생각해보았는지”를 물었다. 이는 포빅스 팀이 데이터 클렌징 과정에서 음수 수량값을 제거했기 때문에 나온 질문인데, “물류 데이터에서 음수(마이너스) 수량이 많이 나타날 수 있는 상황을 고려해야 한다”는 조언이었다.

최우수상을 받은 뉴저지 팀(강경희, 김사라, 김선교, 이지민)은 ‘시계열 예측 모델을 활용한 품목별 유통 수량 예측’을 발표했다. 역시 재고 최적화를 목표로 하는데, 접근법이 좀 다르다. 먼저, 중분류(생수/ 음료/ 건강, 신선식품), 소분류(탄산음료/ 봉지라면) 별로 누락된 데이터를 올바르게 재분류한다. 그리고 품목별 특성을 반영한 시계열 모델((Prophet, SARIMAX 등)에 기상·경제 지표 등 외부 요인을 결합해 모델의 일반화 성능과 해석력을 높이고 예측 정확도를 향상시키려 했다.

다만, 정확도를 높이기 위해 제품마다 서로 다른 모델을 찾아 적용했다는 것은 흥미로운 지점이면서도 실제 적용하긴 까다로운 부분이다. 이기용 숙명여자대학교 소프트웨어학부 교수(AI센터장)도 이 부분을 언급했다. 이기용 교수는 “알고리즘에 대한 타당성이 근거가 있는지, 직관적으로 만들어진 것인지”를 물으면서 “이벤트 요인의 영향이 큰 데이터의 측면에서 직관에 잘 맞지 않는 부분은 타당성을 점검해야 한다”고 주문했다.

우수상을 받은 쿠다(CUDA, 윤혜린, 배동형, 이지유, 이채린) 팀은 ‘품목 특성에 따른 SARIMAX·XGBoost기반 최적 수요예측’을 발표했다. 공공데이터와 유통데이터를 결합해 수요예측 정확도를 향상시키고, 이를 기반으로 물류센터별 품목 특성에 맞춘 최적의 발주 및 재고 관리 체계를 구현하고자 했다. 역시 우수상 팀인 플로우캐스트(FLOWCAST, 유자형, 최정아, 황승현)는 ‘기후, 소비, 트렌드를 읽는 유통 예측 시스템’을 소개했는데 기상·소비·트렌드 데이터를 활용해 물류 흐름을 정밀하게 예측함으로써, 기업의 비용 절감과 물류 운영 효율화를 동시에 실현하고자 하는데 목적을 뒀다.

생성형 AI 솔루션 부문

생성형 AI 솔루션 부문 참가팀에는 텐큐브가 제공한 ‘가정간편식(국, 탕, 찌개, 전골) 평판 데이터가 주어졌다. 데이터를 바탕으로, 어떻게 판매를 개선할 수 있는 지와 신제품 개발에 대한 아이디어 등 매출 신장과 소비자 편익 개선을 위한 방안이 논의됐다. 역시 발표 내용과 코멘트가 이어진다.

대상은 ‘개인 맞춤형 식품 안전 솔루션’을 선보인 포항항만만세(김유진, 남도은, 민선아, 봉재우, 심민준- 모두 포항공과대학교 석사과정) 팀이 받았다. 상품 정보와 구매 영수증, 카드 트랜잭션 데이터 외에 국내 리콜 식품부문 데이터와 네이버 뉴스 API 데이터를 활용했다. 개인의 구매 기록과 공식 리콜 정보, 최신 뉴스 데이터를 통합하고 생성형 AI(LLM)를 활용함으로써 리콜 발생 시 ‘개인에게 최적화된 맞춤형 알림 메시지’를 자동 생성해 발송하는 솔루션을 만드는 걸 1차 목표로 했다. 여기서 더 나아가면 유통데이터를 통해 정확한 구매처와 상세 반품 정보 등을 제공하는 ‘원스톱 식품 안전 솔루션’을 만드는 것도 가능할 것이라고 봤다.

왜 이런 서비스를 기획했나. 리콜 정보 전달과 대응의 중요성에도 불구하고 현재 소비자24 사이트의 리콜 알림이 상투적고, 소비자의 적극적 대응이 어려운 상황이라고 봐서다. 이 문제를 해결하려면, ‘구매-카드-상품’ 데이터를 확인해서 누가 언제 무엇을 어디서 샀는지를 파악하는 것이 우선이다. 이를 위해 구매 영수증을 통해 정리된 가공식품 거래 데이터(6만1794건)에 카드 트랜잭션 데이터(9618만9857건)을 결합, 구매처 상세 정보가 추가된 4만7111건의 가공식품 거래 데이터를 확보했다. 이후에는 소비자24 API를 통해 리콜 제품을 파악, 리콜 대상자를 특정한 후에 해당 개인에게 맞춤형 메시지를 생성하는 방식을 채택했다.

심사위원들은 데이터 확보 가능성과 개인정보 민감성 문제를 지적했다. 김영권 삼성카드 프로(통계학 박사)는 “카드사는 고객을 갖고 있으나 (고객이 무엇을 구매했는지 등의) 품목을 갖고 있진 않다. 반대로, 일반 유통장이나 사업장은 품목은 갖고 있으나 실질적으로 고객을 알기는 어렵다’면서 “지금 단위에서는 직접적으로 (고객이 무엇을 샀는지에 대한 데이터에) 바로 접근하는 것에는 현실적으로 한계점이 있어 보인다”고 지적했다.

최우수상을 받은 고츠(GOA(Z)T, 문현진, 박근화, 장혜지)는 소비자 데이터 기반 생성형 AI 마케팅 자동화 솔루션 ‘마크닛(MarKnit)’을 공개했다. 소비자 평판 데이터를 분석해 상품의 강점과 타깃 페르소나를 도출하고, 생성형 AI를 활용한 광고 문구 작성하며 인플루언서 매칭 및 협업 제안 자동화를 꾀한 것이다. 최근 식품업계 경쟁 심화와 SNS 기반 캠페인 확대로 인플루언서 마케팅의 중요성이 증가했지만, 현실적 어려움이 존재한다는 문제의식에서 출발한 솔루션으로, 기업 규모와 상관없이 효율적이고 맞춤형 마케팅 실행을 지원하고자 하는 걸 목표로 했다.

마크닛의 핵심 기능은 소비자 데이터 분석을 통한 마케팅 문구 자동 생성, 정확한 인플루언서 매칭, 협업 메일 자동 생성이다. 주어진 데이터인 간편식 평판 데이터를 근거로 구매 이유를 9가지 항목으로 분석, 4가지 세그먼트(맛/미식 중시형, 실용성/보관형, 가성비 민감형, 편의성 추구형)로 도출했다. 이후, 마케팅 할 상품의 예로 ‘비비고 사골곰탕 500g’을 선정한 후 이 상품에 대해 가장 충성도가 높을 페르소나로 ‘실용성/보관형’을 짚었다. 이후에는 파이썬을 통해 제품을 분석해 조리방식, 30대 4인가구 등의 소비자 특성을 도출했으며 이를 AI가 이해할 수 있는 프롬프트로 변환해 마케팅 문구를 생성하는 수순을 밟았다.

다만, 질의응답에서 인플루언서 매칭의 정확도 구현 방안에 대한 질문이 제기됐다. 데이터를 제공한 텐큐브의 김방수 데이터 사이언티스트는 “제품의 핵심 강점과 인플루언서 데이터베이스의 매칭이 핵심 마케팅 전략”이라고 짚으면서 “이 정확도를 어떻게 구현할지 어떠한 고민을 했는지”를 물었다. 적절한 인플루언서가 연계되지 않는다면 솔루션의 가설 자체가 성립하지 않기 때문이다. 같은 맥락에서 박춘남 닐슨아이큐코리아 전무는 “인플루언서 마케팅 같은 경우 기업의 데이터가 있어야 뾰족한 마케팅 메시지가 나오게 된다”고 짚으면서 “신제품이나 신생 기업 같은 경우 뾰족한 광고 전략을 짤 수 있는 데이터가 부재하므로, 동일한 마케팅 문구가 양산될 가능성”을 경고했다.

우수상을 받은 (SSUP, 최세은, 염승희)은 ‘경험적 프로모션 서비스’를 선보였다. 현재 유통시장의 개인화 부족과 생존 경쟁이라는 문제를 해결하기 위해 고도화된 개인화 마케팅이 필요하다고 진단했다. 가정간편식 판매 데이터와 구매 영수증 데이터 분석 결과, 구매 비용과 구매 시간에 따라 소비자군이 명확히 갈리고, 구매시간에 따른 인기상품 편차가 매우 크다는 것을 확인했다고 설명했다. 생성형 AI를 통해 각 소비자에 알맞은 광고 문구와 이미지를 생성하고, 플랫폼 내 배너의 구성과 순서 또한 소비자 성향에 맞게 최적화할 것을 제안했다. 오프라인도 마찬가지. 소비자가 작성한 쇼핑 목록과 구매 이력, 재고 정보를 연동해 매장 방문 시 맞춤형 상품과 최적화된 동선을 알리는 ‘커스텀 오프라인 쇼핑 리스트’를 제안했다.

중소 유통 기업이 가진 소비자 데이터를 잘 활용해보자는 알디디(RDD, 장수미, 김인기)는 중소HMR 제조사의 데이터 기반 의사결정 자동화 솔루션을 발표했다. HMR 시장이 연평균 20% 이상 성장해 5조원대 규모에 달하지만, 중소제조사들의 신제품 실패율은 80-90%에 달하고 소비자들의 반응(VOC)분석에만 2-3주가 소요된다는 문제를 제기했다.

마지막 발표팀인 우수상의 오삼삼(이준우, 김연정, 최한결)은 ‘RFM 그래프 기반 전략 자동화 시스템’을 발표했다. 최근 유통업계에서 고객 데이터 정밀 분석과 AI 기반 마케팅이 확산되고 있지만, 고객 데이터의 복잡성과 AI 활용을 위한 데이터 품질 및 인프라 불균형으로 기업 간 격차가 커지고 있다는 현실을 짚었다. 발표를 맡은 최한결 씨는 “그래프 기반 RFM 분석을 통해 고객 관계를 정밀하게 세분화함으로써, 기업은 고객의 가치 수준과 구매 패턴을 보다 명확하게 파악하고 이를 상품 기획과 프로모션 전략에 활용할 수 있다”고 강조했다.

글. 바이라인네트워크
<남혜현 기자> smilla@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다


The reCAPTCHA verification period has expired. Please reload the page.