随着COVID-19大流行期间对COVID-19传播模式理解的需求增加,人们对于机器学习和数据分析的学习热情空前高涨,这种趋势预计将在大流行后持续。在进行数据科学项目的数据预处理时,人们渴望有一种自动化方法能够节省他们在预处理过程中的大量时间,并尝试不同的模型以适应数据。自动化机器学习(AutoML)正是满足这一需求的工具,它不仅能够自动化预处理阶段,还能为预测分析选择合适的模型。
AutoML是什么?
自动化机器学习(AutoML)是一种通过提供初始命令来将机器学习(ML)模型应用于现实世界问题的过程,其余的流程由程序自动处理。具体来说,它自动化了机器学习模型的选择、组合和参数化。在内部,它通过选择不同的超参数来创建不同的流程,并选择那个为数据集提供最大准确性的流程。
AutoML的优势
AutoML已经成为机器学习领域的新趋势。它的目标是自动化整个机器学习和深度学习项目的周期。对于初学者来说,即使在理论部分非常熟悉之后,学习编码也需要很多时间。AutoML成为研究人员和来自不同领域的爱好者应用机器学习技术的需求,他们没有太多时间深入学习编码部分。
AutoML的优势包括:
- 易用性:其他领域的专业人士和研究人员即使没有机器学习方面的丰富经验,也可以使用AutoML进行他们的项目,而不必担心数据准备和其他处理阶段的繁琐和冗余过程。
- 效率:对于常规的数据科学家和分析师来说,AutoML可以节省他们在冗余步骤中的时间,这些时间本可以用于通过调整超参数来优化模型。因此,它提高了工作的效率。
- 减少错误:代码通常容易出错。AutoML有助于减少常见步骤中的人为错误。不必担心早期阶段的一些错误,这些错误最终会破坏未来的预测。AutoML类似于使用计算器进行乘法运算,可以直接使用计算器进行乘法运算,而不是手动执行操作和步骤,以获得相同的结果。
- 节省成本:这对于无法负担聘请ML专业人员构建他们的推荐或销售预测系统的小型公司或初创公司非常有用。但对于大型项目,仍然需要人员进行建模。
- 满足行业需求:AutoML将使许多其他领域的专业人士更容易学习ML,这将最终吸引人们转向机器学习和分析师工作,满足该领域日益增长的人力资源需求。
AutoML的挑战
尽管AutoML在提高结果效率方面有所改善,但它可能难以追踪提供相应输出的算法流程。此外,这也使得为给定问题选择正确的模型变得困难,因为很难预测选择它的过程的结果,这是一个黑匣子。
- 计算能力:选择正确的模型需要更多的计算能力,这将要求数据经历每个模型并适应它以找到准确性,但如果尝试手动进行,可以通过消除许多肯定不适合数据的模型来权衡这个问题。
- 不同数据集的困难:AutoML目前通常被泛化到不同形式的数据集中。但每个数据集在特征的相关性、其结构和特征中存在的数据类型上都有所不同,AutoML可以对大多数数据集做相当令人满意的工作,但它不能满足手动可以达到的准确性和持久性。
可用的AutoML平台
- Google Cloud AutoML:Google Cloud AutoML因其用户友好的界面和高性能而受到欢迎。在几分钟内构建自己的自定义机器学习模型。
- Microsoft Azure AutoML:Azure AutoML为用户提供了一个透明的模型选择过程,适用于不熟悉编码的用户。它是一个用于创建和管理机器学习解决方案的基于云的服务。Azure作为一个平台,可以在不知道任何编程的情况下学习。
- H2O.ai:它提供了一个开源包和一个名为Driverless AI的商业AutoML服务。自成立以来,该平台已在包括金融服务和零售在内的行业中得到广泛采用。它使组织能够快速构建世界级的AI模型和应用程序。
- TPOT:TPOT(基于树的管道优化工具)是一个免费的Python包。尽管免费,但该包在各种数据集中取得了出色的性能:在Iris数据集上达到约97%的准确性,在MNIST数字识别上达到98%,以及在波士顿房价预测上达到约10均方误差(MSE)。