在YouTube上听音乐时,常常被视频中的某种乐器声音所吸引。然而,对于普通听众和业余音乐爱好者来说,分离并提取特定乐器的声音一直是一项困难且繁琐的任务。除非拥有并知道如何使用复杂的工具,否则将束手无策。
这就是机器学习和人工智能变得如此有用的地方。来自麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员开发了一种深度学习模型,该模型以视频为输入,识别并分离特定乐器的声音。它甚至能够调整该乐器声音的音量大小。
该模型或系统是使用自监督学习构建的,不需要任何预标记的数据。当然,这使得完全解释系统如何得出某个结果(在这个案例中是如何分离乐器的)变得困难,但研究人员正在努力理解这一点。
这个名为PixelPlayer的系统在超过60小时的视频上进行了训练,能够识别20种不同的乐器。深度学习模型首先定位产生声音的图像区域。然后,它将声音分离成多个组件,这些组件代表图像中每个像素的声音(这也是系统名称的由来)。
在该系统中有多个神经网络在起作用——一个分析视频中的视觉部分,另一个处理音频部分,第三个首先“将特定像素与特定声波关联起来”,然后分离不同的声音。
令研究人员惊讶的是,系统甚至能够识别实际的音乐元素。他们的研究发现,“某些谐波频率似乎与小提琴等乐器相关联,而快速脉冲模式则对应于木琴等乐器”。