英特尔发布RL Coach 1.0.0 采用新算法并支持非政策评估

导读早在2017年，英特尔就推出了RL Coach，这是一个用于培训和评估强化学习代理的开源框架。从那时起，除了更好的可扩展性之外，多线程模型，

早在2017年，英特尔就推出了RL Coach，这是一个用于培训和评估强化学习代理的开源框架。从那时起，除了更好的可扩展性之外，多线程模型，游戏和机器人环境库已经获得了诸如基准测试和对强化学习子类型的本机支持等功能。今天，Santa Clara公司宣布推出最新版本 - 1.0.0--其中包含“更新”和“更强大”的算法，同时提高了RL Coach API的可用性。

RL Coach 1.0.0增加了总共27个强化学习模型，特别是 - 由奖励反馈循环驱动的模型，它们将它们引向特定目标 - 以及支持将Coach用作Python库的API。另外还有改进的文档和未指定的错误修复，以及一般性能增强。

RL Coach现在可以很好地处理批量强化学习(其中完整的学习经验数量是固定的)并启用所谓的非政策评估(OPE)，它测试学习策略的稳健性(即规定AI代理应该指定的规则集)根据使用其他政策获得的数据，在所有意外情况下进行。此外，它还增加了对几个新的强化学习代理的支持，包括具有经验重放的样本高效的演员 - 评论家(ACER)，软演员 - 评论家(SAC)和双延迟深度确定性政策梯度(TD3)。

RL教练1.0.0可在GitHub上，因为这一周，但英特尔指出，它只有在Ubuntu 16.04测试LTS和Python 3.5。它适用于OpenAI的同名OpenAI Gym，这是一个用于开发和比较强化学习算法的工具包，以及其他流行的培训和测试环境。

RL Coach只是英特尔名副其实的AI生态系统中的几个工具之一。去年，该公司采用了One API，这是一套用于将计算引擎映射到各种处理器，图形芯片，FPGA和其他加速器的工具。今年5月，英特尔新成立的人工智能实验室免费提供了一个用于自然语言处理的跨平台库 -NLP架构师- 旨在通过名称实体识别，意图提取和语义解析来灌输和标记会话助理。2018年春季推出了OpenVINO(开放视觉推理和神经网络优化)，这是一个用于AI边缘计算开发的工具集，它包含用于对象检测，面部识别和对象跟踪的预训练AI模型。

英特尔还提供其神经网络蒸馏器库，可用于去除与目标任务无关的一些AI模型，以缩小这些模型的大小。它旨在补充计算机视觉软件开发工具包(SDK)，它将视频处理，计算机视觉，机器学习和流水线优化结合到一个软件包中，以及Movidius神经计算SDK，其中包括一组要编译的软件，配置文件，并检查机器学习模型。两者都与英特尔的Movidius神经计算API属于同一系列，旨在简化C，C ++和Python等编程语言中的应用程序开发。