亚马逊SageMaker:机器学习服务的全面指南

亚马逊SageMaker是由亚马逊开发的一个功能强大、功能丰富的全托管机器学习服务平台。从创建自己的标记数据集到在生产环境中部署和监控模型,SageMaker能够完成所有工作。它还提供了一个集成的Jupyter笔记本实例,方便访问数据进行探索和分析,无需配置服务器。SageMaker支持自带算法和框架,提供灵活的分布式训练选项,以适应特定工作流程。可以创建任何能想到的机器学习工作流程的管道,这些管道可能会变得相当复杂。

亚马逊SageMaker提供的重要功能

SageMaker Studio:一个集成的机器学习环境,可以在其中训练、构建、部署和分析模型,所有操作都在同一个地方完成。

SageMaker Ground Truth:使用工作人员创建高质量训练数据集,根据喜好创建标记数据集。

SageMaker Studio Lab:一个免费服务,提供Jupyter环境中的计算资源访问权限。

SageMaker Data Wrangler:使用Data Wrangler,可以在SageMaker Studio中导入、分析、准备和特征化数据。可以将其集成到机器学习工作流程中,以简化数据预处理或特征工程,几乎不需要编码或有时不需要编码。还可以添加自己的Python脚本和转换来自定义数据准备工作流程。

SageMaker Autopilot:没有机器学习知识的人也可以轻松构建分类和回归模型。对于没有良好机器学习知识的人员来说,直接跳入SageMaker并与之工作可能会令人不知所措,事情可能会迅速失控。在这种情况下,SageMaker Autopilot可以真正帮助人们和企业。

使用SageMaker Autopilot开发机器学习模型的简易指南

输入实验名称和数据集所在的S3位置。(请注意,URL必须是s3://格式的URL,其中Amazon SageMaker具有写入权限,并且必须在当前AWS区域中。此外,文件必须是CSV或Parquet格式,并至少包含500行。)

接下来,如果希望提供清单文件而不是直接提供数据集,请打开切换开关。清单文件包括有关输入数据的元数据以及数据的位置和要使用的数据集的哪些属性等。

选择目标列并输入输出桶位置。这里有几个高级选项可以设置,如机器学习问题类型(回归、分类)和选择如何运行实验(仅生成候选项或立即创建模型以部署)。还可以选择在生成模型后自动部署模型。

完成这些步骤后,可以点击创建实验按钮,这将使SageMaker Autopilot开始工作并生成模型。如果记得在创建实验时提供的S3桶输出位置,那么这就是Amazon SageMaker创建3个文件的地方。它们是数据探索笔记本、候选定义笔记本和模型洞察报告。

数据探索笔记本描述了Autopilot对提供给它的数据学到了什么。候选定义笔记本包含有关所有模型生成候选项的信息。候选者无非是预处理步骤、算法和超参数范围的组合。每个候选项都有可能根据候选项生成的指标成为最终模型。

最后,模型洞察报告提供了模型洞察和图表,仅针对最佳模型候选项。这包括理解假阳性/假阴性、真正例和假阳性之间的权衡,以及精确度和召回率之间的权衡。

Autopilot算法支持

亚马逊SageMaker Autopilot支持3种类型的算法:线性学习算法、XGBoost算法和深度学习算法。线性学习算法是一组用于解决分类或回归问题的监督学习算法。XGBoost算法是一种监督学习算法,它试图通过结合一组更简单、更弱的模型的估计来准确预测目标特征。深度学习算法是一种多层感知器和前馈人工神经网络。它可以轻松处理非线性可分的数据。

不必为Autopilot提供算法类型。Autopilot智能地理解问题,并根据给定的数据集自动选择正确的算法。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485