在本文中,将探讨如何使用机器学习技术来预测贷款是否会被批准。这是一个分类问题,目标是根据客户提供的详细信息来预测贷款状态。这些信息包括性别、婚姻状况、教育水平、抚养人数、收入、贷款金额、信用历史等。
梦想住房金融公司提供各种住房贷款,并在城市、半城市和农村地区都有业务。客户首先申请住房贷款,然后公司验证客户的贷款资格。公司希望基于客户在线申请表中提供的信息自动化贷款资格审批流程。为此,他们提供了一个数据集,以识别有资格获得贷款的客户群体,以便他们可以专门针对这些客户。
训练和测试数据集将具有相同的列,除了目标列“贷款状态”。训练数据集包含614行和13列,测试数据集包含367行和12列,因为测试数据集中不包括目标列。数据集中包含分类列和数值列,分类列包括性别、婚姻状况、教育、抚养人数、是否自营职业、信用历史和财产区域,数值列包括贷款ID、申请人收入、共同申请人收入、贷款金额和贷款期限。
在数据预处理阶段,将合并训练和测试数据以进行处理。这包括删除不需要的列、识别缺失值、填充缺失值、将分类变量映射为整数等步骤。使用迭代插补器填充贷款金额和贷款期限的缺失值,并将分类变量映射为整数,以便模型可以接受。
将数据分为新的训练集和测试集,以便进行EDA。将'N'映射为0,'Y'映射为1,并进行单变量分析和双变量分析。通过分析,发现批准的贷款多于拒绝的贷款,男性申请人多于女性,已婚申请人多于未婚申请人,大学毕业生多于非大学毕业生,自营职业者少于非自营职业者,大多数财产位于半城市地区,许多申请人有信用历史,抚养人数为0的申请人最多。