预测分析是一种利用数据挖掘、统计分析、机器学习、数学建模和人工智能等技术来预测未知事件的技术。它通过分析历史数据来进行预测。在日常生活中,经常不自觉地使用预测分析,例如预测特定日子市场上某商品(如花卉)的销售情况。如果是情人节,玫瑰的销售量就会很高!可以轻松地说,节日期间花卉的销售量会比平时更高。
在预测分析中,找出负责的因素,收集数据,应用机器学习、数据挖掘、预测建模和其他分析技术来预测未来。数据洞察包括模式和之前可能未知的不同因素之间的关系。揭开这些隐藏的洞察比认为的更有价值。企业使用预测分析来增强他们的流程并实现他们的目标。从结构化和非结构化数据中获得的洞察可以用于预测分析。
1. 定义问题陈述/业务目标。定义项目成果、交付物、工作范围、业务目标,根据业务目标准备一个问卷,以便根据业务目标获取数据。
// 例如,如果目标是提高产品X的销售量,问卷可能会询问顾客对产品X的满意度、购买频率等。
2. 根据问题陈述的答案收集数据。根据问卷收集答案,以数据集的形式呈现。
// 数据集可能包括顾客的年龄、性别、购买历史等信息。
3. 整合来自不同来源的数据。数据挖掘为预测分析准备了来自多个来源的数据,以便进行分析。这提供了客户互动的完整视图。
// 例如,可以从社交媒体、在线商店和客户服务记录中收集数据。
4. 使用分析工具/软件分析数据。可以可视化数据以观察各种因素之间的模式和关系。数据分析是检查、清洗、转换和建模数据的过程,目的是发现有用的信息,得出结论。
// 例如,可以使用统计软件来识别数据中的异常值或趋势。
5. 使用统计模型验证假设、假设并测试它们。统计分析可以验证假设,使用统计模型测试它们。假设是基于问题陈述,在探索性数据分析(EDA)期间形成的。
// 例如,可能会假设产品X的销售量与广告支出成正比。
6. 生成模型。模型是使用算法生成的,以自动化新数据与现有数据结合的过程。也可以组合多个模型以获得更好的结果。
// 例如,可能会使用机器学习算法来训练一个模型,该模型可以根据顾客的购买历史预测他们是否会购买产品X。
7. 部署模型以生成预测并监控其准确性。预测模型部署提供了将分析结果部署到日常决策过程中的选项,以获得结果、报告和输出,通过基于建模自动化决策来实现。进一步管理和监控模型性能,以确保它提供预期的结果。
// 例如,可能会定期检查模型预测的准确性,并根据需要进行调整。
不正确或不完整的数据可能导致模型和准确性差,造成混乱。这就是为什么拥有正确的数据集以获得洞察和训练模型至关重要。预测分析有自己的挑战,但它可以带来无价的业务成果——包括在客户流失之前抓住他们、优化业务预算和满足客户需求。
模型和算法。在预测分析中使用了包括机器学习、数据挖掘、统计分析和建模在内的多个领域的多种技术。预测算法可以大致分为两类:机器学习模型和深度学习模型。本文描述了一些算法。尽管它们各有优缺点,但它们都有一个很大的优点,即可以重复使用,并且可以使用具有业务特定规则的算法进行训练。预测分析是一个涉及数据收集、预处理、建模和部署以获得输出的迭代过程。可以自动化这个过程,以便根据定期输入的新数据提供新的预测。
一旦模型训练完成,可以输入新数据以获得预测,而不需要一次又一次地训练,但一个缺点是它需要大量的数据进行训练。由于预测分析基于机器学习算法,因此需要对数据进行适当的分类和标记,否则会导致性能和准确性差。泛化是一个问题,因为模型在将发现从一个案例转移到另一个案例时能力较差。尽管在预测分析模型得出的发现方面存在一些适用性问题,但可以通过某些方法解决,如迁移学习。
预测分析模型。分类模型是所有模型中最简单的。它根据从历史数据中学到的知识对新数据进行分类。它们最适合通过回答是/否、真/假等二元问题进行二元分类,但也可用于多类分类。决策树、支持向量机是一些分类算法。
// 例如:贷款批准是分类模型的经典用例。另一个例子是垃圾邮件检测。
聚类模型根据属性的相似性将数据点分组成群。有许多聚类算法,但没有一个算法可以被认为是所有用例中最好的。它是一种无监督学习算法,与分类不同,分类是监督的。
// 例如:根据学校学生的位置将他们分组,以便提供通勤服务。根据顾客的项目偏好对他们进行分组,以推荐与他们兴趣相关的产品。
预测模型是最广泛使用的预测分析模型之一,它涉及基于历史数据的学习对新数据的数值预测。只要存在数值数据,就可以应用它。
// 例如:在城市主要道路的不同时段预测交通。商店估计仓库中产品的可用性。
异常值模型顾名思义,它基于数据集中的异常数据条目。异常值可能是数据输入错误、测量错误、实验错误、故意的、数据处理错误、抽样错误或自然错误。尽管异常值可能导致性能和准确性差,但有些异常值有助于发现新奇性或观察新的推断。
// 例如:信用卡/借记卡盗窃。
时间序列模型可以用于任何具有时间段作为输入参数的数据点序列。它使用过去的数据来开发数值指标,并使用该指标预测未来的数据。
// 例如:天气预报,股票市场/加密货币价格预测。
一些常见的预测算法包括随机森林、广义线性模型、梯度提升模型、K均值聚类和先知。随机森林是决策树的组合,他们试图通过使用“装袋”或“提升”技术来实现尽可能低的错误。广义线性模型是一般线性模型的更复杂变体,训练速度非常快。响应变量可以具有任何形式的指数分布类型,提供对预测因子如何影响结果的清晰理解。
// 尽管它们抗过拟合,但它们需要大量的数据集进行训练,并且容易受到异常值的影响。
梯度提升模型是基于决策树集合的预测模型。与随机森林不同,它们一次构建一棵树,并在构建新树时纠正之前的错误。K均值有助于在大型数据集中实施个性化计划。它用于聚类模型。先知是在时间序列和预测模型中使用的算法。它不仅是自动的,还包含了启发式和有用的假设。它之所以受欢迎,是因为它快速、可靠和健壮。
预测分析的用例。预测分析已经在不同领域有许多应用。以下是一些例子:
// 医疗保健、集合分析、欺诈检测、风险管理、直接营销、交叉销售。
它们如何帮助它们的领域?当从新设备登录Gmail账户时,会收到警报。当在新地方使用信用卡/借记卡时,会收到警报。它们是如何检测到的?通过预测分析,欺诈检查员采取一些已知涉及过去欺诈事件的预定变量,并将这些变量放入流程中,以确定未来结果或事件是否会或不会是欺诈的可能性。假设经常在喀拉拉邦使用信用卡,当信用卡在新德里使用时,这是一个潜在的欺诈案例。联邦银行使用分析来预测任何给定交易的欺诈活动可能性——在交易发起后的40毫秒内。
// 除了检测索赔欺诈外,健康保险行业还在采取措施识别最有可能患慢性病的患者,并找到最好的干预措施。