机器学习中的分类模型

在日常生活中，不断地做出各种决策，例如何时醒来、穿什么、给谁打电话、选择哪条路线出行、如何就坐等等。虽然其中一些是重复性的，通常不会注意到（并且允许它在潜意识中完成），但还有许多是新的，需要有意识地思考。随着时间的推移，也在不断学习。

同样地，企业也会将过去的学习应用到与运营和新举措相关的决策中，例如与客户分类、产品分类等有关。但是，这里的情况要稍微复杂一些，因为有多个利益相关者参与其中。此外，由于这些决策的影响范围更广，因此需要做出准确的决策。

随着数字技术的发展，人类开发了多种资产；机器是其中之一。已经学会（并且继续）使用机器通过统计学来分析数据，以生成有助于做出决策和预测的有用见解。机器并不是用数据进行魔法表演，而是应用简单的统计学！

基本概念

监督学习被定义为数据分析的一个类别，其中目标结果已知或被标记，例如客户是否购买了产品，或者没有。然而，当意图根据他们各自购买的内容对他们进行分组时，就变成了无监督的。这可能是为了探索客户与他们购买的商品之间的关系。

分类和回归都属于监督学习，但前者应用于结果是有限的情况，而后者是针对结果有无限可能值的情况（例如预测购买的价值）。

正态分布是连续变量的熟悉钟形分布。这是参数通常取值的自然分布。鉴于预测变量可能携带不同的值范围，例如人的体重可能高达150（公斤），但典型的身高只有6（英尺）；需要对这些值进行缩放（围绕各自的均值），以使它们具有可比性。

多重共线性是指两个或多个预测变量相关，即它们的值一起变动。异常值是预测变量的异常值，可能或可能不是真的。

逻辑回归

逻辑回归利用回归的力量进行分类，并且已经这样做了几十年，仍然保持着最受欢迎的模型之一的地位。该模型成功的一个主要原因是其解释能力，即定量指出各个预测变量的贡献。

与使用最小二乘法的回归不同，该模型使用最大似然法在目标变量分布上拟合一个S形曲线。鉴于模型对多重共线性的敏感性，分步应用它以确定模型选择的预测变量是更好的方法。

该算法是许多自然语言处理任务中的流行选择，例如有毒言论检测、主题分类等。

人工神经网络

人工神经网络（ANN）之所以被称为这样，是因为它们试图模仿人脑，适合于大型和复杂的数据集。它们的结构由中间节点层（类似于神经元）组成，这些节点被映射到多个输入和目标输出。

这是一个自学习的算法，它从一个初始的（随机的）映射开始，然后迭代地自调整相关权重，以微调所有记录的期望输出。多层提供了深度学习能力，能够从原始数据中提取更高层次的特征。

该算法提供了高预测精度，但需要对数值特征进行缩放。它在计算机视觉、自然语言处理、语音识别等领域有广泛的应用。

随机森林

随机森林是一个由多个决策树（或CARTs）组成的可靠集成；虽然更受欢迎用于分类，而不是回归应用。在这里，每棵树都是通过装袋（即聚合引导程序，这些引导程序是通过有放回的抽样创建的多个训练数据集）构建的，并使用较少的特征进行分割。

由此产生的多样化的不相关树的森林展示了降低的方差；因此，对数据变化更加健壮，并将预测精度带到新数据上。

然而，该算法对于包含大量异常值的数据集并不适用，这需要在模型构建之前进行处理。

它在金融、零售、航空等领域有广泛的应用。

朴素贝叶斯

虽然可能没有意识到，但这是用于筛选垃圾邮件的最常见的算法！它应用所谓的后验概率，使用贝叶斯定理对非结构化数据进行分类。在这样做的过程中，它做出了一个朴素的假设，即预测变量是独立的，这可能不是真的。

该模型适用于小型训练数据集，前提是所有类别的分类预测变量都存在。

KNN

K-最近邻（KNN）算法基于指定数量（k）的最近邻数据点进行预测。在这里，数据的预处理非常重要，因为它直接影响距离测量。与其他模型不同，该模型没有数学公式，也没有描述能力。

在这里，需要明智地选择参数'k'；因为低于最优值会导致偏差，而值过高会影响预测精度。

这是一个简单、相当准确的模型，由于涉及大量计算，因此更适用于小型数据集。

在简单的层面上，KNN可以用于双变量预测器设置，例如身高和体重，以确定给定样本的性别。

综合考虑

模型的性能主要取决于数据的性质。鉴于商业数据集包含多个预测变量且复杂，很难选出一个始终适用的算法。因此，通常的做法是尝试多种模型，找出合适的一个。

作为高层次的比较，下面列出了上述算法的一些常见参数；作为一个快速参考快照。

此外，还有多个杠杆，例如数据平衡、插补、交叉验证、跨算法集成、更大的训练数据集等，除了模型超参数调整外，还可以用于提高精度。虽然预测精度可能是最理想的，但企业也寻求突出的预测变量（即描述性模型或其结果的可解释性）。

最后，机器学习确实使人类能够定量地做出决策、预测，并超越显而易见的方面，有时甚至深入到以前未知的方面。

教育帮助学习，并确保能够在不同情况下使用所知道的。教师使用方法和例子，使可以更容易地将所学应用于现实生活中。

适用性：在另一个类似的情况下使用所学的。

泛化：在不同的、更广泛的想法或问题中使用所知道的。

保持：长时间记住所学到的。

适应性：以不同和灵活的方式使用所学的。

先验知识激活：在学新东西之前记住已经知道的。

数据工程基础：OLAP与OLTP的区别

本文详细介绍了OLAP（在线分析处理）和OLTP（在线事务处理）的区别，包括它们的定义、特点和应用场景。

强化学习基础与REINFORCE算法实践

本文介绍了强化学习的基础概念，并通过REINFORCE算法展示了如何在特定游戏中达到超人水平的表现。

机器学习中的分类模型

基本概念

逻辑回归

人工神经网络

随机森林

朴素贝叶斯

KNN

综合考虑

数据工程基础：OLAP与OLTP的区别

强化学习基础与REINFORCE算法实践

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

机器学习中的分类模型

基本概念

逻辑回归

人工神经网络

随机森林

朴素贝叶斯

KNN

综合考虑

数据工程基础：OLAP与OLTP的区别

强化学习基础与REINFORCE算法实践

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485