DB

Data Mart, Data Warehouse, Data Lake 개념

5_ssssseung 2021. 3. 31. 22:14

Data Mart, Data Warehouse, Data Lake

데이터를 활용하기 위해서는 데이터를 수집 및 저장해야 한다.

그 데이터를 저장하는 용도와 스타일에 따라 3가지로 구분한다.


DB의 3가지 형태

  • Data Mart = DM, 데이터 마트 (이하 DM)
  • Data Warehouse = DW, 데이터 웨어하우스 (이하 DW)
  • Data Lake = 데이터 레이크 (이하 DL)

 

Data Mart(DM, 데이터 마트)

  • DM은 현업에서 담당자가 데이터를 활용하기 위한 형태 거의 그대로 쌓아두는 공간
  • 각 부서별에서 사용하는 업무단위처럼 상세한 단위로 데이터를 저장 및 사용

DM(마트)에서 담당자(소비자)가 필요한 상품(데이터)를 직접 선택하는 공간

또한 DM(마트 소매점)이 있다면 당연히 다량의 데이터를 공급하는 DW(대형 도매점)이 존재

 

Data Warehouse(DW, 데이터 웨어하우스)

  • 다양한 원천으로부터 데이터를 수집하여 주제별로 저장하는 도매점과 같은 공간으로 소매점(DM)에 공급하는 역할

  • 즉, 여러 곳으로부터 발생하는 데이터를 소비자, 사용자에게 전달하기 전에 통합하여 저장하는 공간

  • 하지만 다양한 원천의 데이터는 환경, 구조, 용어가 각기 다르므로 이로 인해 추가적인 문제 발생

    • 버려지는 데이터가 발생
    • 데이터를 정제하는 비용 발생
  • 위의 문제들을 전사적 관점에서 고려해서 다양한 데이터를 통합 저장하는 구조로 설계 및 구축

그러나 이러한 문제점과 DW의 한계점으로 DL의 등장이 대두

 

Data Lake (DL, 데이터 레이크)

  • 다양한 원천으로부터의 데이터를 하나의 통합된 형태로 저장하는 DW와 달리, 있는 그대로를 저장하여 다양성을 보존

있는 그대로 날 것의 물고기(데이터)가 있는 호수(DL)

 


최근 DL이 크게 주목받고 있다. 참고자료에 따르면 크게 3가지의 이유를 들 수 있다.

  1. 빅데이터, 인공지능 등 Data Science에 따른 대량의 데이터 니즈
  2. IoT 센서, SNS 등 비정형 데이터의 발생 범람
  3. Hadoop 등의 분산형 저장 구조를 통한 대용량 데이터의 처리 기술 발전

 

Data Flow Image

img

 

ref

https://blog.b2en.com/253

https://brunch.co.kr/@pubjinson/52

https://ehyun0128.github.io/miscellaneous/dm_dw_dl/

 

'DB' 카테고리의 다른 글

OLTP, OLAP 개념 및 차이점  (0) 2021.03.31