主成分分析(PCA)是一种将大量数据浓缩并展示在放大尺度上的方法,它在数据清洗后能够将数据集的维度降低。本文旨在指导如何使用R语言和Factoshiny库来实现PCA,并通过对数据集的可视化来获取更深层次的洞见。
在开始之前,需要确保RStudio和R语言环境已经正确安装。如果系统中安装了多个版本的R,可以通过同时按住CTRL
和SHIFT
键并点击RStudio图标来选择最接近3.6.2版本的R。
接下来,需要安装Factoshiny包,可以通过在R控制台中执行以下命令来完成:
install.package("Factoshiny", dependencies = TRUE)
安装完成后,通过以下命令加载Factoshiny库:
library("Factoshiny")
然后,可以启动PCA的可视化界面,例如:
PCAshiny(DAT_610_Auto_Accident_Personal_Injury_Claims_5_)
这里DAT_610_Auto_Accident_Personal_Injury_Claims_5_
是数据集的变量名,可以根据实际情况替换为其他数据集。
以一个学校项目中的风险评估数据集为例,该数据集包含了如何区分真实索赔和欺诈索赔的信息。数据集中包含了几个关键变量,如怀疑分数、支付金额、索赔成本以及45个索赔标识符。
怀疑分数是一个从1到5的整数,用来评估事故索赔在当时的可疑程度。支付金额和索赔成本以美元为单位。索赔标识符虽然是数值型,但具体含义未知,它们被添加到数据集中以帮助评估事故索赔的可疑程度。
其他没有相关性或统计意义的变量,如索赔编号和政策ID,被从数据集中移除。
Factoshiny提供了一个弹出窗口,允许用户调整和格式化PCA变换后的数据集。用户可以根据图形布局和格式的知识来调整视觉展示,以更好地解释数据。
在图像的左侧,有一个盒子面板,用于调整图形的视图。面板上的每个变化都会影响图形的外观,如果出现错误,可以撤销更改。
黄色框是用于格式化图形的,意味着可以添加、移除或更改标签。每个选项的作用如下:
通过点击“获取PCA代码”复选框按钮,可以将GUI(图形用户界面)或小部件视图转换为代码。
通常,笛卡尔平面被分为四个象限,以表示具有x和y坐标和轴的数据点的位置。这个概念可以应用于许多行业,如保险、医疗保健和地理。在本例中,每个坐标都显示了数据点的严重程度——第四象限(右下角)包含了保险中最糟糕的情况。