효성인포 “HCSF 이용한 ‘데이터 레이크하우스’로 AI 데이터 분석해야”
최근에는 챗GPT라는 혁명을 경험하면서 우리는 하루하루 데이터의 가치를 실감하고 있다. AI 혁명 시대에 뒤쳐지지 않기 위해서는 데이터를 더욱 잘 수집하고 관리해야 한다는 사실을 배울 수 있다. 데이터가 중요하다는 이야기가 하루이틀 나온 게 아니지만, 이제는 생존의 문제로 떠오른 것이다.
기업이 데이터를 관리하는 기술은 지속적으로 발전해왔다. 구조화만 데이터만 저장하고 나머지는 버리던 시절도 있었지만 이제는 기업 내에서 발생하는 모든 데이터를 저장, 관리, 분석해야 할 필요성이 커지고 있다.
이러한 상황 속, 2011년 ‘데이터 레이크’가 혁신 수단으로 등장했다. 데이터 레이크는 구조화되거나 구조화되지 않은 대량의 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소를 말한다. 조직에서 수집한 정형, 반정형, 비정형 등의 형태의 데이터를 원시 형태로 저장하는 데이터저장소인 것이다.
그리고 2016년 이후부터 AWS를 시작으로 시장이 데이터를 ‘퍼블릭 클라우드’로 넘기기 시작하면서 데이터 레이크에 데이터 웨어하우스를 합친 ‘데이터 레이크하우스’가 주목받기 시작했다. 데이터 웨어하우스는 조직 내 다른 데이터들의 정보를 집계하는 시스템이다.
데이터 레이크하우스 시장을 이끌어가기 위해 많은 데이터 플랫폼들이 시장 공략을 위한 시동을 걸었다.
지난 15일 바이라인플러스가 개최한 ‘AI 클라우드 시대 데이터 관리 전략’ 웨비나에서 권동수 효성인포메이션시스템 데이터사업팀 전문위원은 “데이터레이크를 제대로 구축해 놓지 않으면 분석 환경을 제대로 만들 수 없다는 걸 모든 기업들이 인지하고 있다”며 “이제는 단순히 수백 기가의 데이터를 처리하는 시스템이 아니라, 새로운 통찰과 가치를 만들어내는 데이터 레이크가 필요하다”고 말했다. 데이터 레이크의 다양하고 방대한 데이터를 통해 ‘인사이트’까지 도출하는 게 현대적 데이터 구조라는 것이다.
권 전문위원에 따르면 데이터를 이용한 AI 모델에서 제일 중요한 건 데이터 수집이다. 그러나 이렇게 수집된 데이터가 다양한 형태를 띠고 있어, 전처리를 통해 학습 알고리즘에 맞는 데이터로 다시 만들어야 한다. 뿐만 아니라, 다크데이터 같은 불안전한 데이터 또한 존재한다.
그러나 이를 효성인포의 초고성능 병렬파일시스템(HCSF)와 GPU DBMS를 이용해 데이터 웨어하우스에 접목하면 훨씬 더 많은 데이터를 빠르고 정제된 형태로 처리할 수 있다.
권 전문위원은 “효성인포의 임무는 데이터 분석 환경을 최적합 환경으로 제공하도록 하는 것”이라며 “데이터 조회 및 분석을 위해 시간 단위로 데이터 추출을 줄일 수 있는 시스템 환경을 구축했고, 이를 GPU와 분석 및 연계하는 환경으로 확장했다”고 말했다. 다량의 데이터를 처리할 때 발생하는 알고리즘 문제의 병목현상을 해결할 수 있다는 것이다.
그는 “HPC 컴퓨팅 환경에서 기본적으로 활용하는 ‘공장운영시스템(MES)’ 저장 방식은 다량의 데이터를 처리할 때 알고리즘 문제가 한다”며 “이 부분을 HCSF를 활용한 데이터 레이크로 해결할 수 있다”고 설명했다.
이어 “데이터 조회 혹은 분석을 위해 데이터 추출 시간을 줄이는 환경을 구축한 거고, 이 시스템을 통해 GPU 연계를 하는 등의 2차 업그레이드 확장을 진행했다”고 덧붙였다.
글.바이라인네트워크
<박지윤 기자> nuyijkrap@byline.network