Mehek Box：无障碍节奏教育工具的开发之旅

在过去的四年中，致力于开发一种名为Mehek Box的无障碍节奏教育工具。这个工具最初是一个实体工具，一个代表节拍的盒子，里面装有各种不同时长的节奏块。用户可以通过移动“音符块”来填满节拍，以直观的方式理解每个音符的相对时长。在与音乐治疗师和盲文教育者会面后，决定增强这个工具的触觉特性，通过添加盲文使其能够被残疾学生使用。在疫情期间，还创建了一个Mehek Box的应用程序和网页版本，这些版本结合了音频、振动和动画作为给定节奏的多感官表示方式。目前，正在与四个项目合作测试和完善这个网页应用程序和实体工具：两所低收入学校、一个适应性音乐项目，以及珀金斯盲人学校的音乐项目。

在过去的几个月里，想创建一个物理Mehek Box和数字Mehek Box之间的接口，以探索它们在未来课堂中的潜在联合使用。提出了在Mehek Box应用程序中添加图像识别功能的想法，这样用户就可以使用应用内的相机扫描物理盒子中的块，并将这些节奏导入虚拟盒子中，这样他们就可以听到、看到并感受到节奏的播放。为了实现这一点，训练了一个Tensorflow对象检测模型来识别每个节奏块，使用自定义数据集。

为了创建初始数据集，从12种不同大小和颜色的块开始。创建了大约30-40种不同的完整节拍配置，并在旋转盒子时拍摄视频，以改变光线和曝光。从每个视频中选择了大约7-8帧，创建了一个280张图像的数据集。但担心，如果只在这个数据集上训练，模型将会过拟合，无法识别除了瓷砖地板以外的背景上的节奏。由于拍摄单独的图片并进行标记非常耗时，决定增强现有的数据集。最初，以为必须编写一个脚本来增强图像，只添加高斯噪声，并改变它，以便不同的图片获得不同程度的增强。然而，当在网上进行研究时，发现了Roboflow，并且在与他们的团队联系后，有了资源将300张图像增强到一个10,000张图像的数据集。

应用了6种不同的增强，包括高斯噪声、曝光和色调，这些增强的范围是块仍然可以被人眼识别的。Roboflow随机了每种增强应用于每张图像的程度（例如：一张图像可能在-25%到25%的曝光之间增加，生成一张新图像）。由于每个块的位置保持不变，不需要重新标记任何新图像，大大减少了蛮力工作的时间。

为了测试增强的有效性，设置了一个实验。创建了一个单一的配置文件（pipeline.config），告诉每个模型如何训练，使用相同数量的步骤，初始模型（使用了Object Detection Model Zoo中的EfficientDet-D0），以及训练和测试数据的比例。然后在Google Colab上使用三个不同的数据集训练了初始模型：280张未增强的图像数据集、1,400张交换背景的图像数据集，以及10,000张嘈杂增强的图像数据集。跟踪了整个训练过程中的总损失，然后在一个完全不同的测试数据集上测试它们，以评估每个模型在它从未见过的图像上的表现（但在使用中可能会看到）的准确性。

Mehek Box：无障碍节奏教育工具的开发之旅

计算机视觉模型在品牌识别中的应用

智能医疗物资管理系统

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

Mehek Box：无障碍节奏教育工具的开发之旅

计算机视觉模型在品牌识别中的应用

智能医疗物资管理系统

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485