语音分离技术解析

  • 什么是语音分离?
  • 为什么需要语音分离?
  • 传统方法简史
  • 多说话人语音分离

什么是语音分离?

假设想要编写一个程序来生成一首歌曲的歌词。这个过程中会涉及到自动语音识别(ASR)技术的使用。但是,它能够正确识别语音吗?虽然一些最先进的方法可以做到,但由于背景音乐的干扰,它仍然无法识别歌词。

如果能够将语音从音乐中分离出来,那岂不是更好?那样就可以不受任何干扰(在这种情况下是音乐)地识别语音,最终获得更好的结果。

这就是语音分离(正式称为音频源分离)的本质;将输入的混合音频信号分解成它最初来源的各个组成部分。语音分离也被称为“鸡尾酒会问题”。音频可能包含背景噪音、音乐、其他说话人的声音,甚至是这些的组合。

语音分离的任务是从一个声音混合体中提取目标语音信号,这被称为语音增强。从混合体中提取多个语音信号被称为语音分离。在本文的剩余部分,将仅使用“分离”这个术语。

为什么需要语音分离?

语音分离的一个实际应用是在助听器的工作中。在各种噪声环境中识别和增强非平稳语音目标,例如在鸡尾酒会上,对于实时语音分离来说是一个重要问题。或者在另一个案例中,如果音频文件中有多个说话人。假设新闻是由拥挤事件中的记者报道的。

由于记者站得很近,录制的音频将包含重叠的声音,这使得理解变得困难和麻烦。因此,能够识别和分离目标说话人变得至关重要。

从信息时代开始,语音信息在日常生活中扮演了重要的角色;电话通话、语音消息、现场新闻直播等,因此语音分离的作用非常重要。

传统方法简史

在音频中分离两个或多个说话人的问题一直是长期以来的挑战。在信号处理中,对于单个说话人的音频,会考虑使用语音增强方法,其中估计噪声的功率谱或理想Wiener波形记录器,如谱减法和Wiener滤波器。

基于独立成分分析(ICA)的盲源分离和非负矩阵分解也是常用的方法。但最近,深度学习技术在语音分离方面取得了最先进的成果。特别是Conv-TasNet,这是一个用于端到端时域语音分离的深度学习框架,取得了非常好的结果。另一个表现良好的深度学习模型是SepFormer,这是一个无RNN的变换神经网络。

当前的领先方法基于一组过完备的线性滤波器,并在每个时间步骤中分离滤波器输出,使用掩码进行两个说话人的分离,或者使用多路复用器进行更多说话人的分离。

这种方法在包括有混响或噪声的语音在内的几个标准上,比之前的最先进方法表现得更好。使用的各种数据集包括WHAM、WHAMR、WSJ-2mix、WSJ-3mix、WSJ-4mix、WSJ-5mix。该模型在规模不变信噪比(SI-SNR)上比当前最先进模型提高了超过1.5分贝。

为了解决从未知数量的说话人源中分离语音的问题,构建了一个新的系统,通过训练不同的模型来分离两个、三个、四个和五个说话人。为了避免数据分布引起的偏差,并促进分离模型不脱离选择过程的解决方案,他们使用了活动检测算法,计算每个输出通道的平均功率,并验证它是否高于预定义的阈值。

例如,如果一个模型被训练为C个说话人,得到C个输出通道,这些通道通过活动检测算法进行验证。如果没有语音(沉默),则采用C-1模型。这个过程一直重复,直到没有沉默的输出通道,或者对于两个说话人模型只有一个沉默的输出通道。

随着说话人数量的增加,基于掩码的技术受到限制,因为掩码需要从音频表示中提取和抑制更多的信息。因此,在这篇论文中,实现了一种无掩码的方法。

这种方法实现了一个RNN序列,应用于音频。此外,他们在每个RNN之后评估损失,从而获得一个复合损失,反映了每层之后的重建质量。RNN是双向的。每个RNN块都构建有特定类型的残差连接,其中两个RNN并行运行。每层的输出是两个RNN的逐元素乘法与层输入的连接,该层输入经历了一个跳跃连接。

对于跳跃连接的更多细节,请查看这篇文章。有关RNN的详细解释,请参考这里

作为处理的一部分,该方法包括编码和分块音频。与其他方法不同,RNN使用双头,损失也不同。

首先,编码器网络E接收混合波形作为输入,并输出波形的N维潜在表示。具体来说,E是一个1-D卷积层,核大小为L,步长为L/2(L是压缩因子),后跟ReLU非线性激活函数。

然后,潜在表示被分成块,所有块沿单例维度连接,得到一个3-D张量。

接下来,张量被送入分离网络Q,它由b个RNN块组成。奇数块(1,3,5…)沿大小为R的时间依赖维度应用RNN。偶数块(2,4,6…)沿分块维度应用。

直观地说,处理第二维产生短期表示,而处理第三维产生长期表示。之后,该方法通过使用MULCAT块与其他方法不同。

MULCAT块意味着乘法和连接。3D张量和从分块获得的奇数块被送入两个沿第二维运行的双向LSTM。结果然后逐元素相乘,然后是原始信号沿第三维的连接。为了获得与输入大小相同的张量,沿这个维度应用线性投影。在偶数块中,这些相同的操作沿分块轴进行。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485