아마존 S3에서 ‘아이스버그 테이블’ 바로 쓴다

AWS, 매니지드 아파치 아이스버그 ‘아마존 S3 테이블’ 출시

아마존웹서비스(AWS)는 4일 열린 ‘AWS 리인벤트’에서 아마존 심플스토리지서비스(아마존 S3)의 아파치 아이스버그 테이블 매니지드 서비스 ‘아마존 S3 테이블’을 출시했다.

아마존 S3 테이블은 모든 규모에서 아파치 아이스버그 테이블에 표 형식 데이터(tabular data)를 저장하고 관리하게 해준다. 쿼리 가능한 메타데이터를 자동으로 생성하는 기능을 포함해 데이터 탐색과 이해를 단순화하고 고객이 아마존 S3에서 데이터 가치를 극대화할 수 있도록 지원한다.

아파치 아이스버그는 빅데이터 쿼리에 최적화된 파일 형식인 ‘아파치 파케이(Parquet)’에 분석용 데이터를 표 형식으로 구성하는 오픈테이블 포맷(OTF)이다. 현재 가장 인기 있는 OTF로, 페타바이트 또는 엑사바이트 규모의 데이터를 포함하는 수십억 개의 파일을 조회하게 해준다. 아파치 아이스버그는 규모 확장에 따라 관리하기 어렵다는 문제가 있다.

아마존 S3 테이블은 데이터 레이크에서 아파치 아이스버그 테이블을 관리하게 해준다. 분석 워크로드에 특별히 최적화돼 범용 아마존 S3 버킷 대비 최대 3배 빠른 쿼리 성능과 10배 높은 TPS를 제공한다. 아마존 S3 테이블은 쿼리 성능 향상을 위한 압축(compaction)이나 스냅샷 관리와 같은 테이블 유지관리 작업을 자동으로 관리해 고객의 데이터 레이크가 확장되고 발전되는 경우에도 지속적으로 쿼리 성능과 스토리지 비용을 최적화한다.

아마존 S3 테이블을 통해 고객은 행 수준(row-level) 트랜잭션, 타임 트래블 기능을 통한 쿼리 가능한 스냅샷, 스키마 진화 등과 같은 아이스버그 기능의 이점을 누릴 수 있다. 아마존 S3 테이블은 테이블 수준의 접근 제어를 제공해 고객이 권한을 정의할 수 있도록 한다.

아마존 S3 메타데이터는 쿼리 가능한 오브젝트 메타데이터와 오브젝트 태그를 사용한 사용자 정의 메타데이터를 자동으로 수집해 실시간에 가까운 데이터 검색을 간소화하고 데이터 레이크 전반의 분석을 가속화할 수 있도록 아마존 S3 테이블에 저장한다.

아마존 S3 테이블과 아마존 S3 메타데이터는 아파치 아이스버그 테이블과 호환돼 고객은 아마존 아테나, 아마존 퀵사이트, 아파치 스파크 등 AWS 분석 서비스와 오픈소스 툴을 사용해 데이터를 쉽게 쿼리할 수 있다.

아마존 S3 테이블은 정식 출시됐으며, 아마존 S3 메타데이터는 미리보기로 사용가능하다. 아마존 S3 테이블과 AWS 글루 데이터 카탈로그의 통합은 미리보기 버전으로 제공되며 고객은 아마존 아테나, 아마존 레드시프트, 아마존 EMR, 아마존 퀵사이트와 같은 AWS 분석 서비스를 사용해 아마존 S3 메타데이터 테이블을 포함한 데이터를 쿼리하고 시각화할 수 있다.

앤디 워필드 AWS 스토리지 부문 부사장 겸 수석 엔지니어는 “표 형식의 데이터가 빠르게 증가하고 있으며 고객은 테이블 간의 쿼리, 쿼리 성능 향상 및 필요한 것을 쉽게 찾을 수 있도록 방대한 데이터를 이해하고 구성하기를 원하고 있다”며 “아마존 S3 테이블과 아마존 S3 메타데이터는 오브젝트 위에 테이블과 메타데이터 스토리지를 구성하고 운영하는 오버헤드를 제거해 고객이 데이터 구축에 다시 집중할 수 있도록 한다”고 밝혔다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다