首页 > 动态 > > 正文
2022-10-29 06:44:33

谷歌针对Duo的WaveNetEQ技术将杜绝电话打扰

导读 通常,当我们使用诸如Google Duo,Skype或Facebook Messenger之类的客户端通过Internet进行语音呼叫时,由于音频数据包丢失,接收器端会

通常,当我们使用诸如Google Duo,Skype或Facebook Messenger之类的客户端通过Internet进行语音呼叫时,由于音频数据包丢失,接收器端会产生很多抖动。例如,20%的Duo通话总音频损失超过3%,而所有通话中的10%损失大约8%音频。为了解决此数据包丢失问题,使用了隐藏(PLC)模块来填补空白,以获得更好的输出。领先于竞争对手,Google Duo现在使用WaveNetEQ PLC系统,该系统基于DeepMind的WaveRNN技术来完全合成丢失比特的原始波形,从而获得更自然的语音呼叫输出。

WaveNetEQ如何工作

为确保丢失的数据包的输出音频尽可能自然,WaveNetEQ for Duo提取上下文信息并生成可信的声音以保留语音特性。最近的过去音频被用作输入到调节网络的参考,以预测波形中的下一个采样。

校正波形音频后,它会与实时音频流无缝合并,以使过渡平滑且几乎看不到。该技术获得的数据样本越多,越能使正确的数据包与出现故障的数据包交叉淡化。

实际实施

由于在现实条件下,VoIP呼叫是使用不同的硬件进行的,并且每次的人声也都不同,因此,当前的模型使用48种不同的语言和100种不同的扬声器进行训练。此外,WaveNetEQ还考虑了嘈杂的环境,例如在拥挤的车站或饭店接听电话。

为了确保模型不会产生错误的音节,请使用Google Cloud语音转文本API评估数据。当前,单词错误率没有太多差异,这使该技术已经处于成功的边缘。WaveNetEQ技术目前正在使用Pixel 4手机进行的所有Duo通话中使用,并且正在稳定地推广到其他型号。随着AI模型的改进,人们可以期待未来几天内互联网电话的平稳无抖动音频接收。