Data Mart, Data Warehouse, Data Lake
데이터를 활용하기 위해서는 데이터를 수집 및 저장해야 한다.
그 데이터를 저장하는 용도와 스타일에 따라 3가지로 구분한다.
DB의 3가지 형태
- Data Mart = DM, 데이터 마트 (이하 DM)
- Data Warehouse = DW, 데이터 웨어하우스 (이하 DW)
- Data Lake = 데이터 레이크 (이하 DL)
Data Mart(DM, 데이터 마트)
- DM은 현업에서 담당자가 데이터를 활용하기 위한 형태 거의 그대로 쌓아두는 공간
- 각 부서별에서 사용하는 업무단위처럼 상세한 단위로 데이터를 저장 및 사용
DM(마트)에서 담당자(소비자)가 필요한 상품(데이터)를 직접 선택하는 공간
또한 DM(마트 소매점)이 있다면 당연히 다량의 데이터를 공급하는 DW(대형 도매점)이 존재
Data Warehouse(DW, 데이터 웨어하우스)
다양한 원천으로부터 데이터를 수집하여 주제별로 저장하는 도매점과 같은 공간으로 소매점(DM)에 공급하는 역할
즉, 여러 곳으로부터 발생하는 데이터를 소비자, 사용자에게 전달하기 전에 통합하여 저장하는 공간
하지만 다양한 원천의 데이터는 환경, 구조, 용어가 각기 다르므로 이로 인해 추가적인 문제 발생
- 버려지는 데이터가 발생
- 데이터를 정제하는 비용 발생
위의 문제들을 전사적 관점에서 고려해서 다양한 데이터를 통합 저장하는 구조로 설계 및 구축
그러나 이러한 문제점과 DW의 한계점으로 DL의 등장이 대두
Data Lake (DL, 데이터 레이크)
- 다양한 원천으로부터의 데이터를 하나의 통합된 형태로 저장하는 DW와 달리, 있는 그대로를 저장하여 다양성을 보존
있는 그대로 날 것의 물고기(데이터)가 있는 호수(DL)
최근 DL이 크게 주목받고 있다. 참고자료에 따르면 크게 3가지의 이유를 들 수 있다.
- 빅데이터, 인공지능 등 Data Science에 따른 대량의 데이터 니즈
- IoT 센서, SNS 등 비정형 데이터의 발생 범람
- Hadoop 등의 분산형 저장 구조를 통한 대용량 데이터의 처리 기술 발전
Data Flow Image
ref
'DB' 카테고리의 다른 글
OLTP, OLAP 개념 및 차이점 (0) | 2021.03.31 |
---|