在过去的四年中,致力于开发一种名为Mehek Box的无障碍节奏教育工具。这个工具最初是一个实体工具,一个代表节拍的盒子,里面装有各种不同时长的节奏块。用户可以通过移动“音符块”来填满节拍,以直观的方式理解每个音符的相对时长。在与音乐治疗师和盲文教育者会面后,决定增强这个工具的触觉特性,通过添加盲文使其能够被残疾学生使用。在疫情期间,还创建了一个Mehek Box的应用程序和网页版本,这些版本结合了音频、振动和动画作为给定节奏的多感官表示方式。目前,正在与四个项目合作测试和完善这个网页应用程序和实体工具:两所低收入学校、一个适应性音乐项目,以及珀金斯盲人学校的音乐项目。
在过去的几个月里,想创建一个物理Mehek Box和数字Mehek Box之间的接口,以探索它们在未来课堂中的潜在联合使用。提出了在Mehek Box应用程序中添加图像识别功能的想法,这样用户就可以使用应用内的相机扫描物理盒子中的块,并将这些节奏导入虚拟盒子中,这样他们就可以听到、看到并感受到节奏的播放。为了实现这一点,训练了一个Tensorflow对象检测模型来识别每个节奏块,使用自定义数据集。
为了创建初始数据集,从12种不同大小和颜色的块开始。创建了大约30-40种不同的完整节拍配置,并在旋转盒子时拍摄视频,以改变光线和曝光。从每个视频中选择了大约7-8帧,创建了一个280张图像的数据集。但担心,如果只在这个数据集上训练,模型将会过拟合,无法识别除了瓷砖地板以外的背景上的节奏。由于拍摄单独的图片并进行标记非常耗时,决定增强现有的数据集。最初,以为必须编写一个脚本来增强图像,只添加高斯噪声,并改变它,以便不同的图片获得不同程度的增强。然而,当在网上进行研究时,发现了Roboflow,并且在与他们的团队联系后,有了资源将300张图像增强到一个10,000张图像的数据集。
应用了6种不同的增强,包括高斯噪声、曝光和色调,这些增强的范围是块仍然可以被人眼识别的。Roboflow随机了每种增强应用于每张图像的程度(例如:一张图像可能在-25%到25%的曝光之间增加,生成一张新图像)。由于每个块的位置保持不变,不需要重新标记任何新图像,大大减少了蛮力工作的时间。
为了测试增强的有效性,设置了一个实验。创建了一个单一的配置文件(pipeline.config),告诉每个模型如何训练,使用相同数量的步骤,初始模型(使用了Object Detection Model Zoo中的EfficientDet-D0),以及训练和测试数据的比例。然后在Google Colab上使用三个不同的数据集训练了初始模型:280张未增强的图像数据集、1,400张交换背景的图像数据集,以及10,000张嘈杂增强的图像数据集。跟踪了整个训练过程中的总损失,然后在一个完全不同的测试数据集上测试它们,以评估每个模型在它从未见过的图像上的表现(但在使用中可能会看到)的准确性。