在日常生活中,不断地做出各种决策,例如何时醒来、穿什么、给谁打电话、选择哪条路线出行、如何就坐等等。虽然其中一些是重复性的,通常不会注意到(并且允许它在潜意识中完成),但还有许多是新的,需要有意识地思考。随着时间的推移,也在不断学习。
同样地,企业也会将过去的学习应用到与运营和新举措相关的决策中,例如与客户分类、产品分类等有关。但是,这里的情况要稍微复杂一些,因为有多个利益相关者参与其中。此外,由于这些决策的影响范围更广,因此需要做出准确的决策。
随着数字技术的发展,人类开发了多种资产;机器是其中之一。已经学会(并且继续)使用机器通过统计学来分析数据,以生成有助于做出决策和预测的有用见解。机器并不是用数据进行魔法表演,而是应用简单的统计学!
监督学习被定义为数据分析的一个类别,其中目标结果已知或被标记,例如客户是否购买了产品,或者没有。然而,当意图根据他们各自购买的内容对他们进行分组时,就变成了无监督的。这可能是为了探索客户与他们购买的商品之间的关系。
分类和回归都属于监督学习,但前者应用于结果是有限的情况,而后者是针对结果有无限可能值的情况(例如预测购买的价值)。
正态分布是连续变量的熟悉钟形分布。这是参数通常取值的自然分布。鉴于预测变量可能携带不同的值范围,例如人的体重可能高达150(公斤),但典型的身高只有6(英尺);需要对这些值进行缩放(围绕各自的均值),以使它们具有可比性。
多重共线性是指两个或多个预测变量相关,即它们的值一起变动。异常值是预测变量的异常值,可能或可能不是真的。
逻辑回归利用回归的力量进行分类,并且已经这样做了几十年,仍然保持着最受欢迎的模型之一的地位。该模型成功的一个主要原因是其解释能力,即定量指出各个预测变量的贡献。
与使用最小二乘法的回归不同,该模型使用最大似然法在目标变量分布上拟合一个S形曲线。鉴于模型对多重共线性的敏感性,分步应用它以确定模型选择的预测变量是更好的方法。
该算法是许多自然语言处理任务中的流行选择,例如有毒言论检测、主题分类等。
人工神经网络(ANN)之所以被称为这样,是因为它们试图模仿人脑,适合于大型和复杂的数据集。它们的结构由中间节点层(类似于神经元)组成,这些节点被映射到多个输入和目标输出。
这是一个自学习的算法,它从一个初始的(随机的)映射开始,然后迭代地自调整相关权重,以微调所有记录的期望输出。多层提供了深度学习能力,能够从原始数据中提取更高层次的特征。
该算法提供了高预测精度,但需要对数值特征进行缩放。它在计算机视觉、自然语言处理、语音识别等领域有广泛的应用。
随机森林是一个由多个决策树(或CARTs)组成的可靠集成;虽然更受欢迎用于分类,而不是回归应用。在这里,每棵树都是通过装袋(即聚合引导程序,这些引导程序是通过有放回的抽样创建的多个训练数据集)构建的,并使用较少的特征进行分割。
由此产生的多样化的不相关树的森林展示了降低的方差;因此,对数据变化更加健壮,并将预测精度带到新数据上。
然而,该算法对于包含大量异常值的数据集并不适用,这需要在模型构建之前进行处理。
它在金融、零售、航空等领域有广泛的应用。
虽然可能没有意识到,但这是用于筛选垃圾邮件的最常见的算法!它应用所谓的后验概率,使用贝叶斯定理对非结构化数据进行分类。在这样做的过程中,它做出了一个朴素的假设,即预测变量是独立的,这可能不是真的。
该模型适用于小型训练数据集,前提是所有类别的分类预测变量都存在。
K-最近邻(KNN)算法基于指定数量(k)的最近邻数据点进行预测。在这里,数据的预处理非常重要,因为它直接影响距离测量。与其他模型不同,该模型没有数学公式,也没有描述能力。
在这里,需要明智地选择参数'k';因为低于最优值会导致偏差,而值过高会影响预测精度。
这是一个简单、相当准确的模型,由于涉及大量计算,因此更适用于小型数据集。
在简单的层面上,KNN可以用于双变量预测器设置,例如身高和体重,以确定给定样本的性别。
模型的性能主要取决于数据的性质。鉴于商业数据集包含多个预测变量且复杂,很难选出一个始终适用的算法。因此,通常的做法是尝试多种模型,找出合适的一个。
作为高层次的比较,下面列出了上述算法的一些常见参数;作为一个快速参考快照。
此外,还有多个杠杆,例如数据平衡、插补、交叉验证、跨算法集成、更大的训练数据集等,除了模型超参数调整外,还可以用于提高精度。虽然预测精度可能是最理想的,但企业也寻求突出的预测变量(即描述性模型或其结果的可解释性)。
最后,机器学习确实使人类能够定量地做出决策、预测,并超越显而易见的方面,有时甚至深入到以前未知的方面。
教育帮助学习,并确保能够在不同情况下使用所知道的。教师使用方法和例子,使可以更容易地将所学应用于现实生活中。
适用性:在另一个类似的情况下使用所学的。
泛化:在不同的、更广泛的想法或问题中使用所知道的。
保持:长时间记住所学到的。
适应性:以不同和灵活的方式使用所学的。
先验知识激活:在学新东西之前记住已经知道的。