首页 > 信息互动 > > 正文
2021-05-21 18:17:26

Azure Data Lake Storage Gen2的到来和新的Azure Data Factory功能的出现

导读 从Microsoft的基于云的存储和大数据分析平台上获得的信息中收集见解对于公司的企业客户而言将变得更加容易。6月27日,Microsoft推出了

从Microsoft的基于云的存储和大数据分析平台上获得的信息中收集见解对于公司的企业客户而言将变得更加容易。6月27日,Microsoft推出了新的云功能,这些功能进一步降低了大数据分析的障碍。其中包括Azure Data Lake Storage Gen2,该服务“将Hadoop兼容文件系统的概念与横向扩展对象云存储平台结合在一起”,即Azure Blob存储,Azure存储和Azure Stack总经理Tad Brockway,微软告诉eWEEK。

Brockway将Azure Data Lake Storage Gen2描述为“业界第一个不妥协的数据湖”,该服务通过添加“真正的HDFS [Hadoop分布式文件系统]兼容性”,并紧密集成了Azure Data Lake产品,建立在原始Azure Data Lake产品的基础上。 Azure Blob存储技术可实现企业级级别的可伸缩性和性能。

他声称,尽管竞争解决方案使用客户端文件系统仿真来与云对象存储进行交互,但这种方法可以使用户获得低于性能的性能和可靠性,但微软的实现是“所有服务器端[并且]本机集成的”,更无缝的体验,更少的存储和数据管理开销。

布罗克韦说,创建和维护本地数据孤岛的习惯已经跟随企业走向云的旅程。对于许多组织而言,这将使工作场所中普遍的数据分析的愿景变成繁重或根本无法获得的前景,从而阻碍了其数字化转型的努力。Brockway使用“简单的API调用”解释说,Azure Data Lake Storage Gen2授予Azure对象存储客户“无需移动数据即可访问Hadoop兼容文件系统的更丰富兼容性”,这是企业采用分析方法时面临的主要障碍之一解决方案。

当前处于beta版本的Azure Data Lake Storage Gen2还继承了Azure Blob Storage中发现的数据保护,安全性,存储分层和生命周期管理功能。Azure Active Directory是本机集成的,此外,该服务还支持POSIX(可移植操作系统接口)-兼容的ACL(访问控制列表),可以对文件和文件夹访问进行严格控制。

Brockway说,还有一个成本管理方面要考虑。他说,无论数据存储在热存储层还是冷存储层中,客户都可以“根据工作负载的性能要求与他们使用我们的服务的经济性相结合”。

同时,Azure数据工厂的一些新功能已删除beta标签,现已普遍可用。

基于云的数据集成服务的最新功能包括新的控制流数据管道功能,这些功能引入了分支,循环,条件执行和其他允许用户编排复杂集成作业的概念,以及一种新的,无需代码的方式来管理数据Web浏览器的管道。微软Azure信息管理高级项目经理Mark Kromer在6月71日发布的声明中说:“借助基于浏览器的新用户界面,您可以通过拖放来构建和调度数据管道,从而加快生产时间。”

Azure Data Factory设计环境中的迭代调试工具,新的灵活管道调度选项以及对Python,.NET,REST和PowerShell的增强的SDK支持也是新增功能。客户现在还可以将其SQL Server Integration Services程序包“提升并转移”到Azure Data Factory中,并使用Apache Spark使用按需的Azure HDInsight群集或Azure Databricks Notebook建立ETL(提取,转换和加载)管道。