在机器学习领域,数据预处理、算法选择和模型训练一直是一项挑战。然而,随着技术的进步和低代码及无代码机器学习平台及库的出现,应用机器学习模型的限制已经大大减少。这些库和平台通过用户自定义函数简化了预处理和快速运行机器学习模型的过程,从而减少了代码行数。无代码平台提供了拖放功能,这是一种简单的运行机器学习模型的方式,但在灵活性上有所欠缺。而低代码机器学习则提供了灵活性和即用代码的优势。下面,将深入了解这些库和平台及其功能。
低代码库
PyCaret 是一个开源的低代码机器学习库,它自动化了机器学习工作流程。使用PyCaret,训练、测试和部署机器学习模型变得简单。PyCaret提供了回归、分类、聚类和自然语言处理的教程笔记本,其文档也非常完善。PyCaret的功能包括比较模型、创建模型、调整模型、集成模型和绘制模型等。最新版本的特性包括在GPU上调整各种模型的超参数、更新部署模型功能以支持GCP和Microsoft Azure、包含‘scale’参数的绘制模型功能,以及增强特征工程的Boruta算法。
H2O AutoML 是另一个开源工具,适用于没有编码经验的机器学习初学者。它提供了一个多模型和算法的集成界面,简化了训练模型的过程。H2O AutoML支持Python和R语言,这使得初学者和有经验的用户都能使用。对于初学者来说,它有助于自动化预处理、训练、验证和微调模型。对于高级用户,它协助数据工程和堆叠不同的模型。因此,即使是Kaggle竞赛的参赛者也使用H2O AutoML。与PyCaret相比,如果不使用Web界面,使用H2O AutoML需要编写更多的代码。尽管如此,使用H2O AutoML训练模型仍然相对容易。只需要在R或Python中编写几行代码即可。
Auto-ViML 是另一个被称为“Auto_ViML”或“Automatic Variant Interpretable Machine Learning”的低代码库,旨在作为一个AutoML管道,有效地贡献于现代数据工作流程。它接受任何形式为Pandas DataFrame的数据集,并执行数据清理和类别特征转换,例如识别缺失值并由模型决定如何使用它们。它还自动执行特征选择,以产生具有最少特征数量和高性能的最简单模型。Auto-ViML提供了详细的输出,允许对模型有深入的理解和可解释性。通过‘pip install autoviml’安装Auto_ViML。它自动以图形形式产生模型性能结果。它可以处理文本、日期时间、数值、布尔、因子和分类变量,全部集成在一个模型中。用户可以使用featuretools库进行特征工程。最新版本的特性包括使用SMOTE处理不平衡数据集、自动检测文本变量并进行NLP处理,以及自动检测日期时间变量并添加额外特征。现在,用户可以使用现有的featuretools库进行特征工程。
无代码ML平台
CreateML 是苹果为Mac用户开发的无代码拖放工具。它是一个独立的macOS应用程序,拥有一堆预训练的模型模板。借助迁移学习,可以构建自定义模型。它提供了多种模型类型,如图像分类、风格迁移、声音分类、文本分类和推荐系统,可以选择模型类型并添加数据、参数以开始训练。在训练之前,可以设置迭代次数并微调指标。对于风格迁移等模型,它在验证数据上提供实时结果。最后,它生成一个CoreML模型,可以在iOS应用程序中测试和部署。
Google Cloud AutoML 是谷歌的无代码ML平台,与CreateML类似,但基于云。Google AutoML目前提供自然语言、自动ML翻译、视频智能、视觉等ML产品包。它帮助没有机器学习专业知识的开发者构建特定于其用例的模型。用户可以创建符合其业务需求的自定义模型,并将这些模型集成到网站和应用程序中。由于它基于云,因此无需了解迁移学习或创建神经网络,提供完全测试过的深度学习模型的即用支持。训练完成后,可以验证并导出模型为.tflite、.pb等格式。对ML感兴趣的人可以尝试Google AutoML。试用版提供300美元的免费额度,用于在接下来的三个月内消费,并访问所有云平台产品,包括Firebase和Google Maps API。
RunwayML 是另一个为创造者和制造者设计的ML平台。它提供了一个迷人的视觉界面,用于训练从对象检测、文本和图像生成(GANs)到运动捕捉等模型,无需编写代码。它允许搜索从超分辨率图像到背景移除和风格迁移的各种模型。在从这个应用程序导出模型时,可以利用预训练的GAN的力量来从原型合成新图像。一个亮点是,通过其生成引擎,可以在输入句子时合成图片。RunwayML适用于Mac、Windows,也可以在浏览器中使用。