二元逻辑回归是一种统计方法,用于预测基于一个或多个预测变量的二分类结果。与线性回归不同,线性回归预测连续变量(假设在给定区间内可以有无限多个数值),而逻辑回归用于预测有两个可能结果的分类结果:是/否、通过/失败或0/1。本文将指导如何使用Julius AI工具运行二元逻辑回归模型。
Julius AI是一个强大的数据科学工具,它能够分析和可视化大型数据集,并通过清晰的可视化表示提供洞察。它执行复杂的任务,如预测和回归分析。Julius AI还训练机器学习模型,自动化算法选择、参数调整和验证。它简化了工作流程,减少了手动工作量,并提高了数据驱动项目的准确性和效率。
在运行二元逻辑回归之前,必须确保数据集满足以下假设:依赖变量必须是二元的,即恰好有两个类别;观测值必须是独立的,意味着一个变量的结果不应影响另一个变量的结果;对于每个预测变量和结果的对数几率之间应该是线性关系;独立变量之间应几乎没有多重共线性;大样本量有助于确保估计的稳定性和可靠性。
本研究旨在调查人口统计变量是否能预测不同教育环境中的流失率。获取了有关不同学校校长的公开数据。将流失率测量为是或否(满足二元因素的假设),研究结束后的两年内。数据库中列出的其他变量包括学校类型、种族/民族、性别、基本工资和总教育经验(以年为单位)。数据集包含了超过1200名学校校长(满足大样本量假设)。
创建了清晰简洁的提示。使用了Julius,这个领先的统计软件工具,它不会自动产生与模型相关的所有内容。因此,检查了模型假设,确定了依赖变量和预测值。然后运行了描述性统计并评估了模型拟合度。在每个提示之后,指示Julius解释发现。以下是提示和Julius输出的全面列表。复制了Julius的确切输出,记录了原始对话而没有修改。使用SPSS验证了Julius输出的准确性。
现在让逐步了解如何使用Julius运行二元逻辑回归模型。
从turnover.xlsx的Sheet 1加载了数据集。以下是数据的预览:
数值变量(基本工资和总经验年数)和结果变量(工作流失,编码为0表示“否”,1表示“是”)的描述性统计如下:
接下来,将检查逻辑模型假设,从测试独立变量之间的多重共线性开始,然后评估连续预测变量与结果的对数几率的线性关系。
在继续之前,必须解决这个问题,通过删除或插补这些有问题的值。让首先检查这些列中是否有零值或负值,并决定接下来的步骤。