首页 > 要闻 > > 正文
2019-11-07 15:51:15

Google的Pixel 4将AI提升为离线语言模型

导读 谷歌的Pixel手机是该公司向消费者展示其AI印章的首选方式。得益于Google的AI实力,Pixel手机始终设置了手机摄像头。但是许多AI功能与相机无

谷歌的Pixel手机是该公司向消费者展示其AI印章的首选方式。得益于Google的AI实力,Pixel手机始终设置了手机摄像头。但是许多AI功能与相机无关。本周在纽约市由Google制造的硬件活动中推出的Pixel 4和Pixel 4 XL延续了这一传统。除了相机的改进之外,Pixel 4还为Google明确希望统治的新领域发挥了作用:离线自然语言处理。

在5月的GoogleI / O 2019开发者大会上,多名高管吹捧能够将公司基于云的语言模型(超过100GB)缩减到不到100MB。较小的模型当然不那么准确,但是可以脱机工作。无论是苹果,亚马逊,三星还是微软,竞争都没有。

Live Caption and Recorder于10月22日在Pixel 4和Pixel 4 XL发售时专门亮相,这是这一改进的直接结果。前者首先在I / O上炫耀,而后者则在几周前泄漏。实际上,由于泄漏,本周Google甚至没有在舞台上谈论Live Caption,而是迅速浏览了Recorder。但是仔细观察表明,它们确实是用同一块布切割而成的。更新:Google向我证实,Live Caption和Recorder使用相同的基础语音模型,并对不同用例进行了一些自定义培训。

实时字幕和记录器仅以英语运行。对于Live Caption,Google计划“在不久的将来”支持更多的语言。对于Recorder的转录和搜索功能,“即将推出”更多的语言。巧合吗?我想不是。

实时字幕和记录器是阴和阳

Live Caption提供了您手机上正在播放的内容的实时连续语音转录。该功能可以为任何直播媒体加字幕,包括歌曲,音频录制,播客等。可以通过音量按钮访问实时字幕。当卷UI弹出时,它显示为软件图标。一旦检测到语音,字幕就会出现在您的手机屏幕上。您可以点按两次以显示更多,也可以将标题拖到屏幕上的任何位置。您不需要打开其他应用,也不需要Wi-Fi或数据连接。

Recorder应用程序会记录会议,讲座以及您将手机麦克风指向的其他任何内容。像其他任何类似的应用程序一样,您可以保存录音并在以后收听。但是,记录器通过同时转录语音以及自动识别音频事件(例如掌声,鸟,猫,狗,笑声,音乐,公鸡,语音,电话和吹口哨)来进一步发展。此外,您可以在录音中搜索以找到特定的单词或声音。在这里,您也不需要Wi-Fi或数据连接。

因此,Live Caption适用于手机扬声器发出的任何声音,而Recorder适用于手机麦克风发出的任何声音。就是说,如果您正在通话,语音通话或视频通话,则Live Caption和Recorder不能正常工作。

回到I / O时,Android辅助功能产品经理Brian Kemler告诉我,Google没有计划让Live Caption支持转录。“不用于实时字幕。显然,我们已经考虑过了。但是,如果字幕可以帮助您理解或使用这种体验,那么我们希望字幕是暂时的字幕。但是我们要保护人员,发布者,内容和内容所有者。我们不想让您提取所有音频,进行转录,然后再进行[无论他们想要使用什么]。

如果您想要转录,那就是Recorder的目的。

需要Android 10

不要把Live Caption和Recorder与Live Transcribe混淆,后者是Google在2月发布的。该工具使用机器学习算法将音频转换为实时字幕,但它依赖于云(特别是Google Cloud Speech API)。Live Transcribe可在18亿部Android设备上使用。Live Caption和Recorder可能在设备上运行,但设备数量有限。

Google说Pixel 4和Pixel 4 XL使用Pixel Neural Core进行设备上处理。Pixel 3,Pixel 3a,Pixel 3 XL和Pixel 3 XL的“实时字幕”将于今年晚些时候推出。Google还将“与其他Android手机制造商紧密合作,以在明年提供更多功能。” ,这些都没有像素神经核心(像素3和像素3 XL没有像素视觉核心,像素3a和像素3a XL都没有)。

我们可以得出结论,Live Caption将在Pixel 4和Pixel 4 XL上最有效,但是Google显然能够在没有Pixel Neural Core的情况下使其正常工作。(实际上,凯姆勒(Kemler)早在5月就在Pixel 3a上向我展示了它。)

我们可以为Recorder得出相同的结论。该应用程序上个月下旬泄漏。热心人士能够使它在各种设备上运行,包括非像素电话。唯一真正的要求似乎是Android 10。

Google在这里的策略对我来说似乎很明显。该公司将使用Pixel 4和Pixel 4 XL展示英语的实时字幕和录像机。随着公司添加更多语言并适应性能,Live Caption和Recorder将变得更加广泛。首先在较旧的Pixel手机上使用,然后在其他Android设备上使用。

这样,谷歌将能够说它正在为越来越多的人带来酷炫的AI功能。同时,它将确保购买最新Pixel手机的任何人都首先获得其尖端AI功能。