自动化机器学习（AutoML）的崛起与应用

随着人工智能（AI）和机器学习（ML）技术的不断发展，越来越多的企业开始将这些技术融入到他们的内部流程中，以提高产品质量、预测销售、理解客户需求、设计新产品/库存，甚至优化工作环境。然而，随着AI/ML变得越来越重要，其挑战也日益明显，尤其是在AI和数据科学的可访问性方面。

在当前的设计机器学习模型过程中，包括数据预处理、数据准备、特征工程、特征选择等任务。然后，需要选择最佳算法并调整参数以获得最佳结果。设计这些ML模型可能极其耗时。此外，AI/ML是一个入门门槛高的领域，需要领域专业知识，这是很少有公司能够负担得起的。公司经常为招聘合适数量的数据科学家而苦恼，同时也面临着培训员工的挑战。

那么，公司如何降低入门门槛，确保AI对每个人都可访问？如何实现AI的民主化，并实施公民数据平台来解决当前的挑战？机器学习本身可以自动化吗？这就引出了自动化机器学习（AutoML）。

AutoML是一个不断发展的技术领域，涉及一系列用于自动化机器学习模型开发中耗时任务的技术。AutoML有能力使组织内的业务用户能够理解、准备、构建、开发、部署和监控ML应用程序，以应对具有挑战性的工作流程。

AutoML可以识别数据中的不一致性、错误和其他问题，并向用户提供选择、建议以及建议的异常值。一旦专家被提供所有这些信息，他们可以无缝地策划多个模型，节省他们的时间和精力。AutoML应用程序的工作方式是这样的：首先，设置目标并上传数据。然后AutoML生成并测试ML模型，推荐一个有效的ML模型，并监控模型性能。

对于企业来说，AutoML有助于节省时间和金钱，使他们能够构建高效的ML模型，更有效地最大化产出，并提高他们的准确性和生产就绪模型的周转时间。它减少了雇佣许多领域专家的需求，减少了错误发生的可能性，并减少了开发和测试ML模型所花费的时间。

以一个野生动物保护组织为例——为了跟踪特定区域的野生动物种群，它必须跟踪野生动物的移动，以更好地理解人类影响/互动及其对生态的短期和长期影响。为了跟踪和监控野生动物，它需要设置相机陷阱，然后手动分析和适当标记成千上万的图像，这是一个劳动和时间密集型的过程。有了AutoML，它可以自动化分析和标记图像的过程，从而节省时间，降低成本，并基本上给他们提供更快、更准确的结果。

一旦AutoML工具介入，原本需要数周编码的工作，它可以在几小时内完成。本质上，它是一个零或更少编码的平台，使公司更具生产力，并使数据科学家能够专注于解决更具创新性和复杂性的问题。例如，在零售行业，公司可以成功预测客户可能购买的产品，以及高准确度的流失率——这是AutoML为企业和数据科学家带来的可预测性和透明度。

值得注意的是，目前AutoML开源和商业工具，如TPOT、H2O.ai、Google AutoML和DataRobot，是最适合简化以预测结果为目标的任务开发的一些工具。这些流行的解决方案倾向于自动化ML管道的一些或全部步骤。

例如，DataRobot是一个企业AI平台，它使数据科学民主化，并自动化构建、部署和维护大规模AI的端到端解决方案。它消除了对手动工作流程的依赖，自动化重复和耗时的步骤，使新用户能够构建高准确度的模型，并为将AI投入生产提供了快速路径。

成为AI驱动企业的关键不仅仅是雇佣有技能和才华的数据科学家，而是赋予组织内最了解业务的人强大的工具和软件，填补技能差距。毕竟，并非所有公司都有预算和带宽像一些最大的技术巨头那样雇佣数据科学家。

有了AutoML，就不需要广泛的培训或机器学习知识——本质上，将数据输入AutoML工具/软件，系统基本上会经历整个模型构建和部署周期；从理解数据、检查数据质量、特征工程、开发模型、微调模型到推荐结果。它使组织内的每个人都能运行复杂的数据科学模型，从而创造了一类新的公民数据科学家。通过这样做，AutoML为企业打开了创造以前无法访问的机器学习模型的大门。

AutoML的时代已经到来。与其消除数据科学工作，不如说在未来几年，AutoML将成为企业和数据科学家为了在极具竞争力的环境中保持领先地位而采用的更受欢迎的工具。通过自动化重复性任务，它允许数据科学家将更多时间花在手头的业务问题上。与此同时，它还使技术对组织中的每个人（而不是少数人）都可用。

AutoML确实改变了世界各地许多企业的焦点。在未来几年，AutoML的使用将继续减少编写大量代码的必要性；数学和统计方面仍然有用，逻辑技能仍然需要，然而所有的预处理工作将变得更加内置。此外，对AutoML从业者以及能够理解哪些任务可以安全自动化而无偏见或不准确的数据科学家的需求也将增加。

随着企业开始向成为AI驱动企业转型，他们将需要重新思考他们的人才战略，当涉及到提升领域专家的技能时，重新评估他们的需求，并了解他们的限制和机会。

Apache Kafka与实时数据流

本文介绍了Apache Kafka如何通过事件流捕获实时数据，并与传统数据架构进行比较，探讨了Kafka在数据工程中的重要性和应用。

探索Google Cloud Platform的BigQuery与Data Studio

本文介绍了Google Cloud Platform中的BigQuery数据仓库平台和Data Studio可视化工具的基本概念和使用方法。

自动化机器学习（AutoML）的崛起与应用

Apache Kafka与实时数据流

探索Google Cloud Platform的BigQuery与Data Studio

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

自动化机器学习（AutoML）的崛起与应用

Apache Kafka与实时数据流

探索Google Cloud Platform的BigQuery与Data Studio

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485