对于中级和高级用户来说,机器学习模型有时面临系统不兼容的问题,尤其是在处理大型数据集时。模型计算时间变长或者系统崩溃是常见的问题。因此,无论是初学者还是专家,使用机器学习都会遇到一些挑战。
好消息是,近年来机器学习变得更加容易。作为机器学习的初学者,可以使用MicrosoftAzureML开始机器学习之旅。本文将提供必要的信息帮助开始机器学习,并展示了使用该软件创建机器学习模型的逐步教程。
在MicrosoftAzureML上的计算速度与R或Python相当,因此认为这对专家也值得一试。
AzureML是微软提供的机器学习算法的图形用户界面实现。使用这个工具,实现算法变得异常简单。如果熟悉E-Miner,那么理解这个工具将不会困难。发现这个工具比E-Miner更有资源,更图形化。
让讨论一下这个工具提供的多种资源。
喜欢测试那些内置许多数据集的工具,这使得测试工具的能力变得更加容易和方便。AzureML提供了一长串内置数据集。以下是可用数据集的详细信息:
Azure ML几乎拥有每一种机器学习算法和评估指标的公式。
它拥有所有的过滤选项、转换选项、汇总选项和矩阵计算选项。
如果想添加自己的数据集怎么办?AzureML有多种选项可以从本地系统读取数据集。以下是这些选项:
现在,知道了AzureML的潜力。让现在关注如何使用它们。将举一个容易理解的例子来演示。建议和一起练习这些步骤,以更好地理解本教程。
这是开始的地方 - (通过点击创建新实验)。将得到一个空的实验表:
现在可以选择一个调色板:
这可以是样本数据,也可以上传。在本教程中,将使用内置数据集中的“乳腺癌数据”。只需将这个数据拖放到主窗口中。
可以使用调色板中的搜索选项找到“分割数据”选项。将其放置在数据集下方并连接。
现在在分割数据节点看到两个接触点。这基本上意味着有两个数据集准备好继续进行。在右侧,可以选择分割的类型。
需要两个节点来进行这一步。首先,是想要构建的模型类型。其次,是训练模型节点。可以参考以下图表:
仍然可以在训练模型节点看到一个感叹号。这表明需要指定目标变量。让通过点击标记来选择目标变量。现在,会在右侧看到一个窗口。现在选择“启动列选择器”。
在这里,选择了“Class”作为目标变量。
参考以下图表。
并运行模型!
要可视化任何节点,只需转到节点,右键单击,然后单击可视化。
以下是案例中视觉数据的样子:
如所见,Class变量只有两个值,如预期。这个工具整齐地绘制了每个变量的分布,并允许检查正态性。
以下是评分模型的样子:
可以清楚地看到,估计的概率大多接近零和一。累积分布在中间几乎保持平坦。因此,模型输出高度隔离的值。