百度Deep Voice:语音克隆技术的新突破

中国互联网搜索巨头百度开发了一种人工智能系统,能够克隆个人的声音。经过一年的开发,这个名为Deep Voice的文本转语音系统能够利用深度神经网络生成合成的人类声音。根据百度研究院分享的信息,他们声称训练有素的模型只需三秒钟就能复制并输出一个人的声音。

百度的研究团队利用语音克隆技术开发了这个人工智能系统,他们预计这项技术将在个性化人机界面方面有显著的应用。他们采用了双管齐下的方法来构建他们的神经克隆系统:

语音适应与语音编码方法

语音适应:基于多说话者生成模型,使用基于反向传播的方法。

语音编码:结合从克隆音频生成说话者嵌入的模型与多说话者生成模型,有助于减少克隆时间。

语音适应和语音编码(需要最少的音频)都能提供高质量的性能,并且可以与Deep Voice模型以及说话者嵌入一起集成,而不会牺牲源音频的质量。

可以查看百度研究团队提供的,其中包括原始和合成的声音。他们还发表了一篇官方研究论文,可以。

看法

文本转语音技术已经存在一段时间了。谷歌的Deepmind、Adobe和Lyrebird在这一领域做出了重要贡献。百度在2017年也开发了一个文本转语音系统,并在此领域取得了指数级增长。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485