本文将向介绍一种更简单的开始机器学习的方法。是否发现编程难以理解?机器学习需要强大的编码/算法技能。这就是为什么拥有计算机科学学位的人在机器学习领域相对容易成功的原因。但是,情况已经改变。虽然不能完全逃避编程,但仍然可以开始机器学习。一旦开始,可以稍后提高编码技能。
好消息是,现在可以使用微软Excel开始机器学习。是的!没听错。Frontline Solvers推出了“XLMINER DATA MINING”插件,适用于MS Excel。这是一个易于使用、为专业人士设计的工具,用于数据可视化、预测和数据挖掘。如果有以下经验,会发现它很容易使用:
阅读更多:
知道会问这个问题。好吧!XLMiner可以做很多事情,这些事情通常在R、Python或Julia中做。它在机器学习和数据挖掘任务中提供了很多功能。XLMiner支持Excel2007、Excel 2010和Excel 2013(32位和64位)。以下是使用XLMiner可以完成的任务列表:
注意:它不是免费的。可以下载15天的试用期,然后购买两年的许可证,价格为2495美元。
为了从本文中获得最佳效果,必须拥有/获得这些算法的基本知识。如果需要快速回顾机器学习,建议查看这些教程:
已经安装了XLMiner。安装后,将注意到XLMINER出现在主标签中(如下所示)。也可以观看这个XLMINER平台的。
回归不是什么大问题。也可以使用Excel中提供的“数据分析工具包”插件来执行回归。它适用于统计分析。对于机器学习,需要XLMiner。在这里,使用XLMiner演示了多元回归。对于线性回归,所有步骤都相同,只是选择一个独立变量进行建模。以下是步骤:
使用了波士顿房价数据集。这个数据集代表了基于各种影响因素的波士顿房价。可以使用以下方式加载数据集:
帮助 -> 示例 -> 波士顿房价。
这是数据集。
这个数据集中没有缺失值。然而,这个插件提供了一个方便的选项来处理缺失值。可以从这里访问这个选项。
简单地选择发现缺失值的变量。如果缺失值由‘null’、‘N/A’或任何其他形式表示,请提及。最后,可以选择处理方法并完成。
现在将进行特征选择。MEDV是响应变量。MEDV代表以$1000计的自住房屋的中位价值。
使用Shift + 点击一次选择所有独立变量。将MEDV发送到输出变量。点击下一步。
选择相关性过滤器。选择了全部三个。点击下一步
现在选择特征。让找出前5个重要的预测变量。点击完成。
这是变量重要性图表。看到,LSTAT是最重要的变量,其次是RM、PTRATIO、INDUS和TAX。
关闭这个图表。将看到输出导航器。这有助于在各种输出表之间导航。让检查‘选定的预测变量’。
这里是选定的预测变量。让继续使用这些变量构建回归模型。
在建模之前,让将数据划分(分区)为训练和验证。
根据特征选择,选择要包含在分区中的变量。其余的保留默认值,然后点击确定。
在这里,已经准备好了用于建模的训练数据集。
点击选定变量中的任何单元格,然后继续构建多元回归模型。点击多元线性回归
选择一组预测和响应变量。点击下一步
选择所需的度量标准。点击完成
多元线性回归模型已经准备好了。使用输出导航器访问不同的度量和模型准确性。
逻辑回归是分类算法的经典例子。类似于多元线性回归,以下是构建逻辑回归模型的步骤。如果想快速回顾逻辑回归概念,可以参考这个教程:
加载数据集‘Charles_bookclub’。在XLMiner功能区,点击帮助 -> 示例。选择这个数据集。这个数据集代表了与书友会成员相关的信息。将构建一个模型,预测一个人是否会根据过去的购买情况购买一本关于佛罗伦萨的书。
现在,将数据集划分为训练(70%)和验证(30%)。这次需要指定分区的百分比。点击确定
将看到一个数据分区表。点击‘选定变量’表中的任何单元格,然后点击逻辑回归。
在这里选择输入和输出变量。佛罗伦萨是输出变量,当客户购买关于佛罗伦萨的书时,它得到1,否则为0。在这里1是成功。0是失败,如下所示。其余的保留默认值。点击下一步
选择95%的置信区间。如果勾选‘强制常数项为零’,将在回归中省略常数项。因此,不要选择它。点击高级,并勾选‘执行共线性诊断’。它将在处理具有大标准误差的相关变量时显示有用信息。点击确定。现在,点击变量选择。
变量选择帮助处理大量的预测变量,并找到其中最好的。‘最佳子集的最大大小’的值从1到N,其中N是输入变量的数量。不会改变这个值。在选择过程中,可以根据偏好选择任何选项。选择了‘最佳子集’,因为它搜索所有变量组合,并只选择最适合的。点击确定。点击下一步。
现在将选择所需的计算系数来评估模型。选择系数的协方差矩阵和残差。残差将在输出中产生一个拟合值及其残差的表格。点击完成。
这是逻辑回归模型。如果滚动这个表,将找到各种有用的度量来评估这个模型的性能。一个常用的度量模型准确性的度量是混淆矩阵。当滚动时,会找到这个。
如果是聚类新手,这是快速复习:。简单地说,聚类是一种将具有相似属性的变量分组的技术。这种技术通常用于客户画像和根据他们的需求创建产品。
让看看在XLMiner中执行k-means聚类的步骤。
加载Wine数据集。转到XLMiner功能区,点击帮助 -> 示例。选择Wine。在这个数据集中,每一行代表属于3个类别(A、B和C)的葡萄酒样本。将基于这些数据构建一个聚类模型,以确定葡萄酒的类别。这是数据集。
点击数据集中的任何单元格。然后,点击k-means聚类。
类型是输出变量。因此,将选择所有变量,除了类型用于聚类。点击下一步。
让将聚类数量设为8。因为,聚类数量越多,平方和误差(SSE)就越小。SSE定义为每个聚类成员与其质心之间的平方距离之和。可以设置任何k值,并评估每个输出以检查哪一个是最好的。设置随机值为5,将使这个算法从任何随机点构建模型。这样,XLMiner将生成5个聚类集,并从最佳聚类生成输出。其余的保留默认值,然后点击下一步。
保留默认值。点击完成
这是聚类模型。检查各种评估度量以确定这个模型的准确性。
这个表格确定了具有最小平方和距离的最佳启动。在这种情况下(#1)是最好的启动。一旦确定了最佳启动,模型的其余输出就使用最佳启动作为起点生成。
这里将找到两个框。下面的框显示了聚类质心之间的距离。距离越大,聚类的性质就越不同。例如,聚类4和聚类8之间的差异是1176.59。这表明这些聚类非常不同。上面的框显示了聚类中心的变量值。
它代表观测值与聚类中心的平均距离。可以推断出聚类2与其质心的平均距离最低,聚类6最高。
点击KMC_Clusters表。在这里将找到预测的聚类。检查记录ID 1。它被分类为聚类6。因为,这个观测值与聚类6的距离最小。类似地,所有其他观测值都是基于它们最近的聚类进行分类的。