根据任何组织的功能要求,它们将需要数据湖和数据仓库。每个都有不同的目的和用例。除此之外,两者都广泛用于存储大数据,但它们不能互换使用。两者经常相互混淆,但与它们相似之处有很大不同。我们来看看两者之间的一些关键区别。

数据仓库

数据仓库正是它的名字 - 一个仓库,用于存储来自其他企业应用程序的高价值数据或数据资产。它是一个数据管理系统,用于存储组织用于做出业务决策的大量业务数据。它就像一个信息数据库,将来自多个来源的数据聚合到一个集中的、高度结构化的数据存储中,以支持分析和决策支持。它是包含在管理良好的环境中的公司数据资产的集中化。

数据仓库允许组织以常规数据库根本无法做到的方式对大量历史数据运行强大的分析。它是技术和组件的混合体,允许战略性地使用数据。这个想法是从各种来源收集数据,以提供有意义的业务见解。它是一种由企业设计用于查询和分析而不是交易处理的大量信息的电子存储。

数据湖

数据湖是以自然原始格式存储的信息或数据的中央存储库。它允许以任何规模存储所有结构化和非结构化数据。它通常是单个数据存储,以粒度格式从多个源收集数据。它可以存储结构化、半结构化或非结构化数据。数据湖之所以存在,是因为组织都充斥着来自各种来源的数据。它实际上是这些不同类型的数据源的组合,使我们获得有关世界如何在我们周围运作的有力见解,并引导我们开发更智能的应用程序。

数据湖收集所有这些不同类型的数据源,没有任何结构(或架构)。数据湖可以以其本机格式存储数百 TB 或 PB 的数据,直到分析应用程序需要它们为止。与数据存储在文件和文件夹中的传统数据仓库不同,数据湖使用扁平架构将数据存储在对象存储中。企业中数据湖的概念是由他们在处理、处理和存储数据的方式方面面临的某些问题驱动的。

数据仓库和数据湖的区别对比

  • 数据类型 – 数据仓库是一个信息数据库,它将来自多个源的数据聚合到单个集中式高度结构化的数据存储中,以支持分析和决策支持。他们使用预定义的架构摄取结构化数据,以支持商业智能计划。数据湖是单个数据存储,它以原始、精细的格式从多个来源收集数据。
  • 架构 – 传统的数据仓库采用写入时模式,定义为在写入数据库之前为数据创建架构。这意味着可以定义列、数据格式、列的关系等。在上传数据之前。相反,数据湖采用读取时模式模型,其中数据在查询时聚合。仅当读取数据时,结构才会应用于数据。
  • 存储 – 数据仓库允许组织以常规数据库根本无法做到的方式对大量历史数据运行强大的分析。这使得将数据存储在数据仓库中成为一种昂贵且耗时的做法。在数据仓库中存储大量数据的成本相对较高。数据湖专为低成本存储而设计。他们以非常低的成本有效地利用存储和处理能力。
  • 治理 – 数据仓库是由企业对大量信息的电子存储,旨在以安全、易于检索和易于管理的方式进行查询和分析,而不是事务处理。这使得控制数据的安全性变得容易。要正确管理数据湖中的数据,需要采用元数据驱动的方法,使用户能够在湖中搜索和定位数据集。

总结

数据仓库和数据湖都代表了企业数据管理的两种领先解决方案,但它们与同类解决方案有很大不同。数据湖本身并不包含通常与数据仓库关联的相同分析功能。数据湖存储各种结构化、半结构化或非结构化数据集,而数据仓库仅存储清理后的数据集。数据仓库的管理和维护成本相对较高,而数据湖以低成本有效地使用存储和处理功能。

数据湖会取代数据仓库吗?
两者都是补充技术,数据湖不能直接替代数据仓库。它们服务于不同的目的和用例。

是否需要数据湖和数据仓库?
数据湖是一个中央存储库,用于存储大量结构化、半结构化和非结构化数据,而数据仓库用于存储经过处理和优化的数据。数据仓库非常适合运营用户,而数据湖非常适合深度分析运营。

数据仓库和数据挖掘有什么区别?
数据仓库是一种数据管理系统,用于将大量业务数据存储到一个公共数据库中,而数据挖掘是从数据库中提取可用数据。

什么是数据仓库示例?
数据仓库领域一些最突出的名字是Oracle,MarkLogic,Amazon RedShift等。

数据仓库和数据湖的区别

本文由网友:浦水绿 投稿 欢迎任何形式的转载,但请务必注明出处,尊重他人劳动成果。
转载请注明:文章转载自 有区别网 [http://www.vsdiffer.com]
本文标题:数据仓库和数据湖的区别
本文链接:https://www.vsdiffer.com/vs/data-warehouse-vs-data-lake.html
免责声明:以上内容仅代表 网友:浦水绿 个人看法、理解、学习笔记、总结和研究收藏。不保证其正确性,因使用而带来的风险与本站无关!如本网站内容冒犯了您的权益,请联系站长,邮箱: ,我们核实并会尽快处理。