首页 > 要闻 > > 正文
2022-02-03 18:33:39

研究成果在人工智能式传输数据集中具有无与伦比的质量

导读 为了找到改进计算机文本翻译的灵感,达特茅斯学院的研究人员求助于《圣经》寻求指导。因此,在不同版本的神圣文本上训练的算法可以为不同的

为了找到改进计算机文本翻译的灵感,达特茅斯学院的研究人员求助于《圣经》寻求指导。因此,在不同版本的神圣文本上训练的算法可以为不同的受众将书面作品转换成不同的风格。

互联网工具可以广泛用于翻译英语和西班牙语等语言。创建样式转换器——用同一种语言保存文本但转换样式的工具——似乎要慢得多。在某种程度上,由于难以获得所需的大量数据,发展口译员的努力受到了阻碍。这就是研究小组转向圣经的地方。

研究结果在AI风格传输数据集中具有无与伦比的质量

除了是世界各地许多人的精神指导,达特茅斯的团队还在《圣经》中看到了“一个庞大的、以前未开发的对齐的平行文本数据集”。除了提供无限的灵感之外,每一版《圣经》都包含31000多节经文,研究人员使用这些经文为机器学习训练集生成了150多万对独特的源和目标经文。

根据发表在《皇家学会开放科学杂志》上的研究,这不是第一个为风格翻译创建的平行数据集。但它是第一个使用圣经的人。过去使用的其他文本,从莎士比亚到维基百科条目,提供了小得多的数据集,或者不适合学习风格翻译的任务。

达特茅斯大学的博士生、该研究论文的主要作者基思卡尔森(Keith Carlson)说:“英语圣经有许多不同的写作风格,使其成为风格翻译的完美源文本。

作为研究团队的另一个好处,圣经已经被书籍、章节和诗歌人物的一致使用完全索引。跨版本的可预测文本组织消除了对齐错误的风险,对齐错误可能是由匹配同一文本的不同版本的自动方法引起的。

“圣经是一个‘神圣的’数据集,可以用来研究这项任务,”达特茅斯大学计算机科学教授、这项研究的作者丹尼尔洛克莫尔说。“几个世纪以来,人类一直在执行组织圣经文本的任务,所以我们不必相信不可靠的对齐算法。”

为了定义研究的“风格”,研究人员参考了句子长度、被动或主动言语的使用,以及可能导致不同程度的简单性或文本形式的词语选择。根据这项研究,“不同的词语可能会传达不同程度的礼貌或对读者的熟悉程度,展示关于作者的不同文化信息,也更容易被一些人理解。”

该团队使用了34个独特版本的圣经,其语言复杂程度从“国王詹姆斯版本”到“基础英语圣经”不等。这些文本被输入到两个算法中——一个称为“摩西”的统计机器翻译系统和一个通常用于机器翻译的称为“Seq2Seq”的神经网络框架。

虽然不同版本的圣经被用来训练计算机代码,但我们最终可以开发一个系统,可以为不同的受众翻译任何书面文本风格。例如,风格翻译可以从莫比迪克那里选择英语,并将其翻译成适合年轻读者、非英语母语者或各种受众的不同版本。

“文字简化只是一种特定类型的风格转移。更广泛地说,我们的系统旨在生成与原始文本具有相同含义的文本,但使用不同的单词,”Carlson说。

达特茅斯学院在计算机科学领域有着悠久的创新历史。“人工智能”一词是1956年在达特茅斯建立人工智能研究学科的会议上创造的。其他进展包括BASIC的设计——第一个通用和可访问的编程语言——和达特茅斯分时系统,这有助于现代操作系统。