在音频技术领域,一个名为SoundStorm的模型标志着一个巨大的飞跃,它承诺将彻底改变与声音的互动方式。SoundStorm是一个尖端的音频AI模型,能够生成高质量、自然的对话。用户可以通过文本稿控制说话内容、通过简短的声音提示控制说话者的声音,以及通过文本注释控制说话者的轮次。因此,可以创造出听起来像是真实人物在说话的对话。
SoundStorm最令人印象深刻的特点之一是其速度。该模型的运行速度比之前的模型快100倍,在使用TPU-v4时,仅需半秒钟就能产生30秒的音频。SoundStorm是一个高效的非自回归音频生成模型,这意味着它可以更高效地生成音频,而不会出现之前模型中的延迟。此外,使用SoundStorm,可以无缝地生成音频,而不会降低音质或一致性。
SoundStorm的另一个优点是其一致性。该模型能够产生与AudioLM同等水平的音频,但具有增强的一致性。因此,每次使用SoundStorm时,可以期待同样的高质量水平。