基于开放源码的基于云的软件的开发人员Alluxio公司(AlluxioInc.)今天宣布了一些新的功能,这些功能简化了转换和存储数据的任务。
这些新特性还使数据科学家能够更快地获得用于分析和机器学习应用的数据。
该公司的软件是一个内存中的虚拟存储层,它与多个后端数据存储接口,将数据馈送到性能依赖的开源计算框架,如Apache Spark、Apache HBase和Presto。 它的方法消除了副本,并使用智能缓存来预测来自框架的请求,并相应地预加载数据。 在过去的一年里,Alluxio一直在进入全球命名空间和数据管理,以便在商店之间移动数据。
“Kubernetes为计算Alluxio为数据所做的事情,”首席执行官史蒂文·米赫(Steven Mih)表示。
Alluxio正在解决从AmazonWe bServicesInc.的S3、Hadoop文件系统、Ceph免费软件存储平台和戴尔技术公司的戴尔EMC弹性云存储转换和加载数据所固有的性能问题。 它们都是由分析框架广泛支持的开放格式。
今天,该公司正在为其平台添加数据目录和转换服务。 目录服务管理系统中结构化数据的元数据,跟踪所有数据库、表和模式信息,以及所有存储数据的位置。 这就不需要根据Apache Hive数据仓库软件在亚稳态中更改表位置,也不需要重新启动或重新配置Hive服务。
目录服务允许对任何类型的结构化数据进行模式感知优化。 例如,一旦Hive亚稳连接到Alluxio目录服务,该服务将自动挂载适当的表位置,并自动向Alluxio位置提供表元数据。
“好处是Alluxio可以进行模式感知优化以在特定模式中传递数据,”Mih说。 “这使得过去必须连接到多个数据筒仓的数据工程师更加简单。 他们需要元数据来理解他们拥有什么样的数据,数据有多大,以及如何访问它。
转换服务将数据转换为独立于源存储格式的计算优化表示。 虽然结果取决于特定的格式和工作负载,但Alluxio说,内部测试显示了查询性能的五倍改进。
“SQL框架以表、模式、行和列来看待世界,而存储系统则以文件、对象、目录和原始字节来看待世界,”Mih说。 他表示:“我们可以将数据转换为计算优化,而不考虑格式。”该服务将大量小文件合并为少量大文件,将逗号分隔的值格式转换为Parquet,并进行在线排序。
该软件可在Apache2.0许可证下的免费社区版本和具有增强功能的企业版本中获得,如安全性和排序。 该公司在其网站上发布有限的定价信息。