互联网资讯：Databricks希望用更可靠的DeltaLake代替凌乱的数据湖

互联网是高科技的产物，是历史发展、社会进步、人类智慧的结晶；是人类迄今所拥有的容量最大、内容最广、传递速度最快的信息中心。全球每天有四亿人使用互联网，上网人数占世界人口的百分之6.互联网为我们了解时事、学习知识、与人沟通、休闲娱乐等提供了便捷的条件，接下来这篇文章给大家说说互联网科技的一角。

大数据公司Databricks Inc.希望通过一个新的开源项目来清理公司混乱的数据湖。

Databricks说，该项目称为Delta Lake，其作用与常规数据湖类似，但通过确保其中存储的所有信息“干净”且没有错误，提供了更高的可靠性。

数据湖是以其自然格式存储的数据的系统或存储库，通常是对象“斑点”或文件。它们通常充当所有企业数据的单个存储，包括源系统数据的原始副本和用于报告，可视化，分析和机器学习等任务的转换数据。

但是Databricks表示，出于以下几个原因，存储在传统数据湖中的信息可能不可靠或不准确。这些包括写入失败，架构不匹配和数据不一致，当批处理数据和流数据混合在一起时会出现这种情况。

Databricks首席执行官Ali Ghodsi告诉SiliconANGLE，“在过去十年中，组织一直在建设数据湖，但是一直未能从数据中获得洞察力。“因为这是垃圾-垃圾，组织会遇到数据质量，可伸缩性和性能方面的问题。”

该公司表示，这些不可靠的数据可能会阻止公司及时获取业务见解，并且会减慢诸如机器学习模型训练之类的计划，而这些计划需要准确且一致的数据。

Ghodsi补充说：“ Delta Lake通过“过滤”凌乱的数据并阻止对Delta Lake的访问来应对这些挑战。“干净的数据位于数据湖顶部的三角洲湖中。在当今的数据湖中无法提供这种级别的数据可靠性。”

Delta Lake确保数据保持准确性和可靠性，因为它可以管理批量和流数据以及多个同时写入的事务。使用Apache Spark分析数据的公司可以利用Delta Lakes作为其主要信息源，因此无需更改其数据体系结构。另外，Delta Lakes消除了建立复杂的数据管道的需求，这些管道在不同的计算系统之间移动信息。公司的所有信息都可以存储在Delta Lake中，必要时可以利用数百个应用程序。

Delta Lakes也使个人开发商的生活更加轻松。通过设置Delta Lake，开发人员可以从笔记本电脑访问它，并快速建立到他们正在使用的任何应用程序的数据管道。他们还可以访问每个Delta Lake的早期版本，以进行审核，回滚或重现其机器学习实验的结果。此外，开发人员可以将其用于存储大型数据集的常用格式Parquets转换为Delta Lake，从而避免了将大量新数据写入系统的需求。

Ghodsi说：“希望将原始的，不可靠的数据转换为可立即使用的，可靠的数据以进行机器学习计划的开发人员应该使用Delta Lake。” “ Delta Lake将简化数据工程并消除开发人员每天遇到的可靠性问题。”

SiliconANGLE姐妹市场研究公司Wikibon的分析师James Kobielus说，Delta Lake实际上听起来与数据仓库没有区别，他将数据仓库定义为“真相的单一版本”，该数据被净化后的数据存储，供下游应用程序用于运营商业智能，报告，预测建模和其他工作负载。

Kobielus说：“换句话说，听起来确实像是Databricks正在扩大其市场定位，以解决更广泛的传统企业用例，例如数据仓库。” “但是，Delta Lakes提出了一个明显的问题：除了能够使用Spark分析仓库中的数据之外，Apache Hive可能是最广泛采用的开源数据仓库项目中尚不支持的功能?”

首页

常识问答

知识问答

精选问答

日常问答

经验问答

优选问答

甄选问答

要闻

生活

消费

经济

互联网资讯：Databricks希望用更可靠的DeltaLake代替凌乱的数据湖

猜你喜欢

最新文章