人类感知与语音处理

对语音处理领域一直充满兴趣。近年来,开始深入研究与语音相关的主题,并决定在这里分享经历和学习成果。目标是基于语音处理,提供视角和见解。

声音对意味着什么?

如果认为会给出一个枯燥的数学量化或定义,那就错了。三四年前,读了尤瓦尔·诺亚·哈拉利的《人类简史》。其中一句话让印象深刻:“除了集体想象之外,没有神,没有国家,没有金钱,没有人权。”这是一句深刻而有意义的句子。那么,什么是想象呢?

感知与想象是什么?

知道艾德·希兰是一位非凡的歌手。所以在支付了相当昂贵的票价后,参加了他的一场音乐会。怎么知道艾德是一位杰出的歌手呢?嗯,听了他的很多歌曲。特别是像《Perfect》、《Shape of You》和《Castle on the Hill》这样的歌曲。反复听了很多次。因此,基于这些数据,判断是他是一位非凡的歌手。此外,这些经验数据帮助构建了一个画面,即无论实际结果如何,音乐会都将是精彩的。

当说到“构建一个音乐会将精彩的画面”时,那是想象,其结果是不可预测的。但这个画面从何而来呢?嗯,在脑海中,艾德·希兰的歌曲创造了一种满足感,给带来了即时的提升,就像血清素这样的快乐荷尔蒙。现在,这是对艾德·希兰歌曲的感知,这导致想象音乐会会很棒。所以感知是对存在的认识。

关于感知的一些思考

喜欢反复听最喜欢的歌手的所有歌曲,还是只听最喜欢的歌手的某些特定音乐?听某些特定歌曲。所以感知有一个“有限的选择权重集”。此外,两个最喜欢的歌手都是艾德·希兰的人可能对这个有限的选择权重集有不同的看法。

韦伯-费希纳定律

那么,什么是“有限的选择权重集”呢?假设有20张卡片,有人偷走了五张。下次玩的时候会注意到。但假设有20,000张卡片,然后五张被偷走了。多久会注意到五张不见了?这引导到韦伯-费希纳定律。韦伯定律指出:“产生可感知感觉增加的最小刺激增加量与先前的刺激成正比。”

同时,费希纳定律是韦伯定律的推论(加上额外的假设),它指出感觉强度随着能量增加的对数增加,而不是随着增加的快速增加。这些定律是理解声音感知的基础。

韦伯定律的数学表达

让从数学上看看韦伯定律。其中ΔI代表差异阈值,I描述初始刺激强度,K表示方程左侧的比例保持不变,尽管I项有所变化。

韦伯-费希纳定律

感受器的冲动放电率与刺激的对数强度直接成比例。其中,R=冲动放电率,S=刺激强度,K=常数。

人们熟悉“SCRUM扑克游戏”;他们知道使用斐波那契数列来优先考虑用户故事。为什么不使用一个常规的数字序列?或者一个偶数或奇数的排列?原因是韦伯-费希纳定律。斐波那契数列是一个非线性滞后指数序列。因此,根据韦伯-费希纳定律,使用斐波那契数列进行优先级排序的想法变得现实。但如果使用一个连续的序列,如1,2,3,它将遵循线性,所以对人的感知来说并不那么现实。因此,优先级排序可能会偏离现实。

语音的感知

语音信号从说话者的嘴巴、鼻子和脸颊发出;它是时间的一维函数(空气压力)。麦克风将波动的空气压力转换成电信号、电压或电流,通常在语音处理中以这种形式处理语音信号。当说话时,会产生多个频率成分。那么,什么是频率成分呢?

这里说的句子是“Hello World”。这个表示看起来很复杂,对吧?怎么能猜测频率呢?在时间域中似乎有太多的数据。怎么知道频率呢?人类可以将一个值感知为“一个大团队”或“一个小团队”;在量化它之前,它没有任何意义。2个人的团队比5个人的团队小。4个人的团队比2个人的团队大,但比5个人的团队小。

量化为提供了构建感知的信息。所以需要量化语音中的频率。但这并不是唯一的原因。人类在感知时间方面是不完美的。有趣吗?嗯,在大学,有些人喜欢逃课去看电影或游戏,或者参加派对。这些人中的大多数可以告诉他们逃课的大致次数(频率)。

但他们无法告诉他们逃课的具体日期和时间。也许这就是说“时间治愈一切”的原因。或者“公众的记忆是短暂的”。从感知上讲,对时间是无知的。随着时间的推移,在感知上变得更加无知。这就是为什么在电信等应用领域。不在时间域中处理信号;所有的过滤、编码、卷积等都是在频率域中完成的。

有各种数学方法可以将时间域数据表示转换为频率域表示。对来说,拉普拉斯和Z变换有点模糊,因为它们并不总是具有确切的物理解释。如果对微分方程有更好的感知和想象,那么它是一个有价值的工具。但还必须记住,这些变换彼此之间有些相关。

语音感知的有损性质

将讨论傅里叶变换;一个非周期信号,如语音,可以被分解成从0到无穷大的连续频率的正弦波,根据傅里叶变换。

现在,如果对前面提到的语音样本“Hello World”执行这个操作,它看起来如下。可以看到有很多频率成分。所有这些频率成分对人类感知语音有帮助吗?一个健康的年轻“正常”听觉频率范围大约是20到20,000Hz。但对于感知来说,它在0-1000 Hz之间保持线性,但在1000Hz之后变得对数。所以不会区分10000Hz和10010Hz之间的声音。这就是为什么所有ASR系统在它们的初始数字信号处理特征提取部分使用一个掩蔽滤波器,该滤波器内部将频率转换为人类感知声音的方式。这些滤波器是MFCC、GFCC、PLP等。

与有损语音感知相关的问题

由于上述感知能力的不足,无法感知耳语。此外,语音感知的可理解性还取决于一些预先学习的数据。就像知道的,有特定语言的母语和非母语者;以下是同一数据。

对于母语者来说,当他们学习第二语言(L2)时,他们的第一语言(L1)的影响可以在L2的发音中看到。或者有时,一种语言有不同的发音和语音风格。对于英语,有两个主要部分,如英国英语和美国英语。在接受发音(RP)时,这是在学习英国英语时最常见的英语口音。在BBC新闻中,英语的类型。理解RP将帮助区分英国和美国口音。例如,在RP中,字母“r”在单词的末尾发音非常柔和。例如,用英国口音,发音字母“r”几乎不发生。就像,在单词‘Pork’中。甚至可以认为在这个上下文中它是一个“无声的r”。一个英国人会发音这个词water,而一个美国人会说接近“wah-der”。

所有这些风格都给语音感知带来了挑战。为了消除这一点,一些社交网络站点,如LinkedIn,增加了一个特定部分,人们可以在这里说出他们的名字并获得正确的发音。

因此,已经讨论了人类在时间感知方面的无能和频率感知方面的能力。还给出了人类心理声学性质如何运作的概念。著名的英国诗人威廉·布莱克曾经写道:“如果感知之门被净化,一切都会向人显现出来,就像它本身一样,无限。”想想看,如果能线性地听到所有频率成分,并且能够区分彼此,可能会比现在更理解语音。此外,想提一下,正如之前所说,不能正确感知时间域。像爱因斯坦这样的伟人有一种将时间视为第四维度的心态!!这不是对无限的天才想象力吗?

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485