首页 > 消费 > > 正文
2021-12-14 14:20:53

脸书研究人员利用数学获得更好的翻译

导读 机器翻译工具的设计者仍然主要依靠词典来使外语易于理解。但是现在有了一种新的方法:数字。脸书的研究人员表示,将单词转化为数字并利用语

机器翻译工具的设计者仍然主要依靠词典来使外语易于理解。但是现在有了一种新的方法:数字。脸书的研究人员表示,将单词转化为数字并利用语言之间的数学相似性是一种很有前途的方法——尽管像《星际迷航》这样的通用交流工具还很遥远。

强大的自动翻译是互联网巨头的重中之重。允许尽可能多的人在世界各地交流,不仅是一个无私的目标,也是一件好事。

脸书的谷歌和微软,俄国的Yandex,中国的百度等等都在不断寻找改进自己翻译工具的方法。

脸书在巴黎的一个研究实验室雇佣了一名人工智能专家。

欧洲社交网络基础人工智能研究联席主管安托万博尔德斯(Antoine Bordes)表示,脸书目前使用多达200种语言。

目前,自动翻译基于两种语言相同文本的大型数据库。但是对于很多语言对来说,这样的平行文本远远不够。

这就是为什么研究人员一直在寻找另一种方法,例如,脸书开发的系统可以创建单词的数学表示。

每个单词都成为数百维空间中的一个“向量”。在这个向量空间中,口语中密切相关的单词也会发现它们彼此靠近。

从巴斯克到亚马逊?

其中一个系统Guillaume Lample说:“例如,如果你在语义上使用‘猫’和‘狗’这两个词,它们是描述相似事物的词,所以它们在物理上非常接近。”设计师。

“如果你用欧洲的首都,比如马德里、伦敦和巴黎,那也是同样的想法。”

然后可以使用算法将这些语言映射相互联系起来——起初是粗略的,但最终会更加精细,直到整个短语可以匹配而不会有太多错误。

兰普尔说,结果非常有希望。

兰普尔说,对于英语-罗马尼亚语,脸书目前的机器翻译系统与单词向量系统“不相上下,甚至可能更差”。

他说,但是对于脸书语,一种英语-乌尔都语稀疏的语言,传统的系统没有很多双语文本可供参考,单词向量系统已经很优秀了。

但是这种方法能把巴斯克语翻译成亚马逊部落的语言吗?

Lampl说,理论上可以,但实际上,要绘制语言地图,需要大量的书面文本,这是亚马逊部落语言所缺乏的。

他说:“如果你只有成千上万个短语,那是行不通的。你需要成千上万个短语。”