김은희 l 한국오라클 컨설턴트
    데이터 레이크는 오브젝트 스토리지!

    dhlrh
    |
    21.12.01조회수 4982
    Copy Link



    쏟아지는 정보통신 기술 속에서 단연 핵심적인 것은 빅데이터의 혁신이라고 할 수 있다. 디지털 경제에서 데이터의 밸류가 상승하고 AI 개발자 품귀현상 등 빅데이터의 시대임을 체감하고 있는 가운데 이를 방증하듯 끊임없이 새로운 용어가 생기고 있다.

    특히 물과 관련된 재미있는 용어들이다. 데이터의 바다에 빠질 것인가, 유용한 정보를 뽑아낼 것인가가 화두인 가운데, 동영상과 IoT에서 나오는 스트리밍(streaming, 시내) 데이터를 저장소(reservoir, 수조)에 저장할 수 있는 기술이 등장했고 데이터웨어하우스(DataWarehouse, 창고)의 데이터와 통합처리할 수 있어서 분석의 새로운 지평을 열었다.

    또, 모든 유형의 데이터가 파이프라인(pipeline, 배관)을 통해 흘러(Data flow, 처리 툴) 데이터 레이크(Data lake, 호수)로 모일 수 있고 이때 너무 많은 저장소가 복잡하게 구성되어 있으면, 또는 자동 수집되는 메타데이터를 모은 데이터 카탈로그를 통해 관리(Governance)가 제대로 되지 않는다면 호수는 스웜프(swamp, 늪)로 변할 수 있다.

    데이터를 모아 놓고도 늪에 빠질 수 있는 것이다. 최근에는 분산된 스트림이 데이터 패브릭(Fabric, 직물)이나 데이터 메시(Mesh, 망)로 짜여져 제어관리되고 있고 이러한 데이터의 세계에 다이빙(Dive)해서 불필요한 데이터를 거르고 클린징하는 랭글링(wrangling, 치열한 싸움)을 통해 전처리 후 필요한 데이터를 빠르고 효과적으로 분석할 수 있다.

    초창기 빅데이터 플랫폼은 하둡, DW, NoSQL을 활용해 각 데이터 유형에 따라 저장소를 구축했다면 최근에는 하둡과 DW에 데이터를 바로 저장하는 방식이 아닌, 중간에 새로운 저장소인 오브젝트 스토리지(object storage)를 배치해 데이터 레이크로 활용하고 있다.

    오라클을 일례로 들면, 원천 데이터 파일(raw data file)을 오브젝트 스토리지에 저장한 후에 자율운영DB(Autonomous DB)과 통합연계한 빅데이터 플랫폼을 구축할 수 있다. 자율운영DB에서 주피터 노트북을 열고 오브젝트 스토리지와 접속해 데이터를 꺼내온 후 모델을 생성하는데, 이때 데이터 처리는 데이터 플로우(스파크, Spark)로 프로세싱한다.

    지난번 기고에서 다룬 하둡과 비교해 설명하자면, 오브젝트 스토리지와 하둡의 HDFS가 같은 수준의 저장소이므로 데이터 레이크를 만들 때 구성요소로서 취사선택할 수 있는데 분석 목적이나 비용과 업체(클라우데라, CSP업체)의 서포트 등을 고려하면 된다.

    - 데이터 레이크(Data Lake) : 구조형, 비구조형(csv, json, txt, SNS, 이미지, 동영상, 센서데이터, 지리경위도 정보) 정보를 ETL 없이 원래형태(Raw data)로 저장하는 단일 저장소. HDFS 또는 오브젝트 스토리지를 요소로 구성할 수 있으며 머신러닝 모델, 실시간 데이터, 분석산출물을 저장할 수 있으며 데이터 처리는 차후에 진행됨(스키마 on read) 데이터 베이스(Data Base) : 운영, 거래를 위한 용도의 데이터 관리SW로 구조적인 스키마를 정의하여 데이터를 행(Row-엔티티)과 열(Column-속성)으로 정형화 관리함.

    - 데이터 웨어하우스(Data Warehouse) : 데이터 시각화(Business Intelligence)를 위한 용도에서 여러 개의 데이터베이스에서 데이터를 공통의 형식으로 변환(ETL)하여 저장하는 중앙저장소. 엔터프라이즈 데이터웨어하우스는 전사 통합 단일 DW를 의미함.


    ■ profile
    •현 한국오라클 상무, 컨설턴트
    •MIT 로지스틱스, SCM 공학석사
    •FIT 패션바잉, 머천다이징 AAS
    •서울대 의류학과 학사, 석사, 박사

    Related News

    • 알쓸패잡
    News Image
    [알쓸패잡] 이재경 l 변호사 · 건국대 교수 '패션AI, 부머인가? or 두머인가?'
    24.01.19
    News Image
    [알쓸패잡] 이윤 l 브랜드워커파트너스 공동대표 '리더를 위한 전략적 성공 기술(2)'
    24.01.19
    News Image
    [알쓸패잡] 문명선 l 밀알재단 기빙플러스 마케팅위원장
    탄소의 재발견? LGD 등 순환경제 시대
    23.10.26
    조회수 1110
    News Image
    [알쓸패잡] 이정화 l 마혼코리아 대표
    지구 어딘가에서는 우리도 송혜교?
    23.10.26
    조회수 1667
    More News
    Banner Image