主成分分析(PCA)与数据可视化

主成分分析(PCA)是一种将大量数据浓缩并展示在放大尺度上的方法,它在数据清洗后能够将数据集的维度降低。本文旨在指导如何使用R语言和Factoshiny库来实现PCA,并通过对数据集的可视化来获取更深层次的洞见。

安装与配置

在开始之前,需要确保RStudio和R语言环境已经正确安装。如果系统中安装了多个版本的R,可以通过同时按住CTRLSHIFT键并点击RStudio图标来选择最接近3.6.2版本的R。

接下来,需要安装Factoshiny包,可以通过在R控制台中执行以下命令来完成:

install.package("Factoshiny", dependencies = TRUE)

安装完成后,通过以下命令加载Factoshiny库:

library("Factoshiny")

然后,可以启动PCA的可视化界面,例如:

PCAshiny(DAT_610_Auto_Accident_Personal_Injury_Claims_5_)

这里DAT_610_Auto_Accident_Personal_Injury_Claims_5_是数据集的变量名,可以根据实际情况替换为其他数据集。

数据集概览

以一个学校项目中的风险评估数据集为例,该数据集包含了如何区分真实索赔和欺诈索赔的信息。数据集中包含了几个关键变量,如怀疑分数、支付金额、索赔成本以及45个索赔标识符。

怀疑分数是一个从1到5的整数,用来评估事故索赔在当时的可疑程度。支付金额和索赔成本以美元为单位。索赔标识符虽然是数值型,但具体含义未知,它们被添加到数据集中以帮助评估事故索赔的可疑程度。

其他没有相关性或统计意义的变量,如索赔编号和政策ID,被从数据集中移除。

可视化与分析

Factoshiny提供了一个弹出窗口,允许用户调整和格式化PCA变换后的数据集。用户可以根据图形布局和格式的知识来调整视觉展示,以更好地解释数据。

在图像的左侧,有一个盒子面板,用于调整图形的视图。面板上的每个变化都会影响图形的外观,如果出现错误,可以撤销更改。

黄色框是用于格式化图形的,意味着可以添加、移除或更改标签。每个选项的作用如下:

  • 轴(Axes):这是一个可编辑的文本框,用于调整图形上的轴数量。这可以改变每个数据点在图形上的位置,调整位置也可以提供更多的洞见。
  • 修改图形(Modify graph):这是一个切换按钮,允许单独调整每个图形。对于数据点和补充类别的变量都有单独的选项。
  • 图形标题(Graph Title):每个图形都有一个添加标题的选项,以表达图形的内容。
  • 绘制点(Points to draw):提供了复选框选择,可以在图形中添加个体(即数据集中的数据点)和补充类别,这会添加更多的标签。
  • 标签(Labels for):这是一个复选框,用于在图形中添加每个数据点的索引编号。
  • 标签大小(Size of labels):提供了一个滑块或滑动条,用于调整图形上标签的大小。

通过点击“获取PCA代码”复选框按钮,可以将GUI(图形用户界面)或小部件视图转换为代码。

上下文分析

通常,笛卡尔平面被分为四个象限,以表示具有x和y坐标和轴的数据点的位置。这个概念可以应用于许多行业,如保险、医疗保健和地理。在本例中,每个坐标都显示了数据点的严重程度——第四象限(右下角)包含了保险中最糟糕的情况。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485