• -------------------------------------------------------------
  • ====================================

数据仓库知识随记-数据湖

阅读 dewbay 6年前 (2019-05-08) 2899次浏览 已收录 0个评论 扫描二维码

今天去 Teradata 的网站学习了它的产品体系,大概弄明白了前几天所听到的“数据湖”的概念,以及它所应用的场景。

Data lakes and data warehouses are both design patterns, but they are actually polar opposites. Data warehouses are an approach based on structuring and packaging data for the sake of quality, consistency, reuse, ease of use, and performance with high concurrency levels. Data lakes go the other direction, complementing data warehouses with a design pattern that focuses on original raw data fidelity and long-term storage at a low cost while providing a new form of analytical agility.

上面是从它的产品白皮书中摘录出来的,比较清楚地解释了数据仓库和数据湖的区别。可以简单理解为,数据仓库是面向分析的设计,侧重于易用和执行效率;而数据湖则注重数据保留,保证数据的长期低成本存储,以应对未知形式的分析。这也让我理解了前几天听到的一个大数据架构:即 ODS 层、数据湖数据仓库、集市层,在这个架构下,数据仓库可以不必将所有的数据都保存下来,只需要将明确了分析需求的数据建模即可,暂时用不到的数据和过久的历史数据可以保存到数据湖中,从而可以降低数据仓库建设的复杂度,避免为了应对未知分析而做出的“过度”设计。
虽然四达经分的数据复杂度、分析需求还不需要建设专门的数据湖,但从层次上划分出数据湖层还是可以的,

ODS 层:把原始数据抽取加载过来,不改变数据结构,不做数据处理,不长期保留(一年以内足以);
数据湖层:建立企业数据模型,将多源数据整合后形成统一数据模型。对于非结构化的数据,直接保存其原始数据即可,如日志。

数据仓库:维度建模,分主题创建数据模型。对于分析频率不高、暂时不明确需求的数据,可以仅建模至数据湖层;

作者:产品经理萝卜
来源:CSDN
原文:https://blog.csdn.net/weixin_42893650/article/details/81631312
版权声明:本文为博主原创文章,转载请附上博文链接!


露水湾 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:数据仓库知识随记-数据湖
喜欢 (0)
[]
分享 (0)
关于作者:
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址