谷歌针对Duo的WaveNetEQ技术将杜绝电话打扰

通常，当我们使用诸如Google Duo，Skype或Facebook Messenger之类的客户端通过Internet进行语音呼叫时，由于音频数据包丢失，接收器端会产生很多抖动。例如，20%的Duo通话总音频损失超过3%，而所有通话中的10%损失大约8%音频。为了解决此数据包丢失问题，使用了隐藏(PLC)模块来填补空白，以获得更好的输出。领先于竞争对手，Google Duo现在使用WaveNetEQ PLC系统，该系统基于DeepMind的WaveRNN技术来完全合成丢失比特的原始波形，从而获得更自然的语音呼叫输出。

WaveNetEQ如何工作

为确保丢失的数据包的输出音频尽可能自然，WaveNetEQ for Duo提取上下文信息并生成可信的声音以保留语音特性。最近的过去音频被用作输入到调节网络的参考，以预测波形中的下一个采样。

校正波形音频后，它会与实时音频流无缝合并，以使过渡平滑且几乎看不到。该技术获得的数据样本越多，越能使正确的数据包与出现故障的数据包交叉淡化。

实际实施

由于在现实条件下，VoIP呼叫是使用不同的硬件进行的，并且每次的人声也都不同，因此，当前的模型使用48种不同的语言和100种不同的扬声器进行训练。此外，WaveNetEQ还考虑了嘈杂的环境，例如在拥挤的车站或饭店接听电话。

为了确保模型不会产生错误的音节，请使用Google Cloud语音转文本API评估数据。当前，单词错误率没有太多差异，这使该技术已经处于成功的边缘。WaveNetEQ技术目前正在使用Pixel 4手机进行的所有Duo通话中使用，并且正在稳定地推广到其他型号。随着AI模型的改进，人们可以期待未来几天内互联网电话的平稳无抖动音频接收。

首页

常识问答

知识问答

精选问答

日常问答

经验问答

优选问答

甄选问答

要闻

生活

消费

经济

谷歌针对Duo的WaveNetEQ技术将杜绝电话打扰

猜你喜欢

最新文章