使用Qlik Sense构建线性回归模型指南

商业智能和数据分析领域,Qlik Sense是一个强大的工具,它不仅可以创建仪表板和报告,还能进行预测建模。本文将带了解如何利用Qlik Sense构建一个简单的线性回归模型,以便业务用户可以根据目标销售额预测未来的收益。

Qlik Sense简介

Qlik Sense以其关联模型而闻名,它提供了自由形式的数据发现方式,帮助最终用户快速找到趋势和异常值,从而获得有意义的洞察。Qlik Sense以其关联模型和在数据模型中发现字段间关联的速度而著称。

Qlik Sense的应用范围非常广泛,它被应用于多个行业,例如在医疗保健领域,保险公司可能希望使用过去的成本、人口统计和诊断信息来预测患者护理的未来成本;在制造业中,可以根据过去的缺陷和设备精度来预测产品缺陷;在人力资源领域,可以根据员工的年龄和经验来预测其未来的薪酬成本。

简单线性回归介绍

回归分析是一种预测建模形式,它揭示了一个或多个自变量(独立变量)与一个因变量(依赖变量)之间的关系。这是许多有抱负的数据科学专业人士首先学习的技术。

当只有一个独立变量,并且关系可以用一条直线表示时,这个过程被称为简单线性回归。一条直线可以通过数学方程y = mx + b来定义,其中y是依赖变量,x是独立变量,m是斜率,b是截距。

回归过程将最佳可能的直线拟合到一系列数据点上。如果无法画出一条直线使得所有点都落在其上,那么“最佳”的线是什么?在阅读答案之前先思考一下。最佳线是最小化所有数据点到线的距离的线。

相关系数表示独立变量和依赖变量之间的关系强度,而决定系数(r平方)解释了独立变量的方差在多大程度上解释了依赖变量的方差。接近1的相关系数表示独立变量和依赖变量之间存在正相关关系,而接近1的决定系数表示数据与预测模型的拟合度很好。

在Qlik中实现线性回归

最近,偶然发现了一篇非常有趣的文章,它展示了美国青少年怀孕率与贫困率之间的关系。这些事实值得深思,为什么青少年怀孕会导致更高的贫困率。

例如,只有38%的18岁之前生孩子的女孩在22岁之前获得高中文凭;三分之二的青少年母亲在离开家庭后生活在贫困中,并且在孩子出生的第一年中有相似的比例接受公共福利;78%的未婚且未从高中毕业的青少年母亲所生的孩子生活在联邦贫困线以下。

这是一个都应该意识到的问题,如果可以以任何方式提供帮助,至少应该尝试。幸运的是,在宾夕法尼亚州立大学统计学系的网站上找到了一个相关的数据集。将使用这个数据集在Qlik Sense中创建一个简单的线性回归模型。

以下是在Qlik Sense中创建简单线性回归模型的步骤,希望能够跟随这些步骤操作:

  1. 创建散点图
  2. 计算相关系数
  3. 计算决定系数
  4. 计算斜率
  5. 计算y轴截距
  6. 创建一个初始值为0的变量x
  7. 计算预测的青少年出生率

Qlik Sense线性回归模型与拟合线方程相匹配:Y = 1.373X + 4.267。在0%的贫困率下,青少年出生率将是4.27%。独立变量的一单位变化等同于依赖变量的1.373变化。

如果贫困率是15%,青少年出生率会是多少?这就是答案。现在,可以将关联引擎的力量结合起来,根据选择,使用15%的贫困率预测15至17岁女性年龄组的出生率。

与使用Python构建的模型比较结果

接下来,将使用Pandas和scikit-learn库在Python中构建一个类似的简单回归模型。想比较在Qlik Sense中创建的预测模型的准确性与在Python中创建的模型。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485