在人工智能的浪潮中,语音合成和语音识别技术取得了令人瞩目的进展。这些技术不再是简单的机器声音,而是越来越接近人类的自然语音。如果对此还有疑问,谷歌的Duplex演示可以迅速改变看法。
谷歌云平台提供的文本到语音和语音到文本服务已经存在近一年,但之前在合成语音和多语言支持方面的能力相对有限。然而,最新的更新彻底改变了这一局面。一系列新功能的加入使得机器发出的声音更加自然,并且生成的文本更加准确。
文本到语音API现在向公众开放,支持14种语言和30种标准语音,以及26种WaveNet语音。可以在这里尝试。
WaveNet是由DeepMind开发的模型,它使用机器学习技术生成文本到语音的音频。这是一个深度神经网络,能够从机器中产生令人难以置信的类似人类的声音。它就是谷歌助手中听到的声音背后的算法。可以在这里了解更多关于WaveNet的信息。
在语音到文本方面,谷歌云现在能够通过机器学习识别音频中的不同说话者。需要指定音频中有多少个说话者,然后谷歌的服务就开始工作。它甚至能够给每个单词标记一个独特的说话者编号。
不需要等待谷歌发布任何详细说明每一步的研究论文——直接访问这个,下载WaveNet的TensorFlow实现!