AI音乐分离技术：PixelPlayer

在YouTube上听音乐时，常常被视频中的某种乐器声音所吸引。然而，对于普通听众和业余音乐爱好者来说，分离并提取特定乐器的声音一直是一项困难且繁琐的任务。除非拥有并知道如何使用复杂的工具，否则将束手无策。

这就是机器学习和人工智能变得如此有用的地方。来自麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员开发了一种深度学习模型，该模型以视频为输入，识别并分离特定乐器的声音。它甚至能够调整该乐器声音的音量大小。

该模型或系统是使用自监督学习构建的，不需要任何预标记的数据。当然，这使得完全解释系统如何得出某个结果（在这个案例中是如何分离乐器的）变得困难，但研究人员正在努力理解这一点。

系统工作原理

这个名为PixelPlayer的系统在超过60小时的视频上进行了训练，能够识别20种不同的乐器。深度学习模型首先定位产生声音的图像区域。然后，它将声音分离成多个组件，这些组件代表图像中每个像素的声音（这也是系统名称的由来）。

在该系统中有多个神经网络在起作用——一个分析视频中的视觉部分，另一个处理音频部分，第三个首先“将特定像素与特定声波关联起来”，然后分离不同的声音。

令研究人员惊讶的是，系统甚至能够识别实际的音乐元素。他们的研究发现，“某些谐波频率似乎与小提琴等乐器相关联，而快速脉冲模式则对应于木琴等乐器”。

本文介绍了IIT Roorkee研究人员如何利用无人机和计算机视觉技术监测铁路轨道的健康状态，以提高铁路安全。

本文介绍了在计算机视觉领域中应用广泛的预训练模型，包括Keras框架中的多种模型，以及如何利用这些模型加速学习过程。