数据科学与Orange工具入门教程

数据科学领域中,并非人人都愿意学习编程,尽管他们可能想要学习或应用数据科学。这时,基于图形用户界面(GUI)的工具就显得非常有用。今天,将向大家介绍另一种基于GUI的工具——Orange。这个工具非常适合那些希望在不了解编码的情况下可视化数据模式并理解数据的初学者。

目录:

  • 为什么选择Orange?
  • 设置系统
  • 创建第一个工作流
  • 熟悉基础
  • 问题陈述
  • 导入数据文件
  • 理解数据
  • 如何清洗数据?
  • 训练第一个模型

1. 为什么选择Orange?

Orange是一个为数据挖掘和分析构建的基于GUI的工作流平台。这意味着不需要知道如何编码就能使用Orange进行数据挖掘、处理数据和提取洞察。可以执行从基本视觉到数据操作、转换和数据挖掘的任务。它将整个过程的所有功能整合到一个工作流中。

Orange最出色和与众不同的地方在于它拥有一些精彩的视觉效果。可以尝试轮廓图、热图、地理图和各种可视化效果。

2. 设置系统

Orange如果之前已经安装了Anaconda工具,则内置于其中。如果没有,请按照以下步骤下载Orange。

  1. 访问 并点击下载。
  2. 安装平台并将Orange的工作目录设置为存储文件的位置。

这是Orange的启动页面。有选项可以创建新项目、打开最近的项目或查看示例并开始。

在深入了解Orange的工作原理之前,让定义一些关键术语以帮助理解:

- 组件(widget):任何数据操作的基本处理点。它可以基于在屏幕左侧的组件选择器中选择的内容执行多种操作。 - 工作流(workflow):在平台上执行的一系列步骤或操作,以完成特定任务。

现在可以点击“新建”并开始构建第一个工作流。

3. 创建第一个工作流

这是构建任何问题解决方案的第一步。需要首先了解为了实现最终目标需要采取哪些步骤。在点击上述步骤中的“新建”之后,应该得到了以下内容。

这是在Orange中的空白工作流。现在,已经准备好通过从组件菜单拖动任何组件到工作流来探索和解决任何问题。

4. 熟悉基础

Orange是一个可以帮助解决当今大多数数据科学问题的平台。从最基本的可视化到训练模型,甚至可以在数据集上执行无监督学习:

本教程中要解决的问题是实践问题“贷款预测”,可以通过这个链接在Datahack上访问。

从理解和预测的第一个也是必要的步骤开始:导入数据。

  1. 点击组件选择器菜单上的“数据”标签,并将“文件”组件拖到空白工作流中。
  2. 双击“文件”组件并选择想要加载到工作流中的文件。在本文中,将学习如何解决实践问题“贷款预测”,将导入相同的训练数据集。
  3. 一旦可以使用组件查看数据集结构,通过关闭此菜单返回。
  4. 现在,由于有原始的.csv详细信息,需要将其转换为可以在挖掘中使用的格式。点击围绕“文件”组件的虚线并拖动,然后点击空白空间中的任何位置。
  5. 由于需要一个数据表来更好地可视化发现,点击“数据表”组件。
  6. 现在双击组件以可视化表格。

整洁!不是吗?现在让可视化一些列以找到数据中的有趣模式。

点击“文件”组件前的半圆并拖动到工作流中的空白位置并选择“散点图”组件。创建散点图组件后,双击它并像这样探索数据!可以选择X和Y轴、颜色、形状、大小等许多其他操作。

探索的图表是按性别和收入的图表,颜色设置为教育水平。正如所看到的,在男性中,高收入群体自然属于毕业生!尽管在女性中,看到很多毕业生女性收入低或几乎什么都没有。有特定原因吗?让使用散点图找出原因。

另一种可视化分布的方式是“分布”组件。再次点击半圆,拖动以找到“分布”组件。现在双击它并可视化!

看到的是一个非常有趣的分布。在数据集中,已婚男性比女性多。

收入与教育水平之间的关系如何?毕业生是否比非毕业生获得更多报酬?让使用筛选图进行可视化。

点击并拖动从“文件”组件并搜索“筛选图”。放置后,双击它并选择轴!

此图表将分布部分划分为4个箱子。可以通过将鼠标悬停在它上面来调查各个部分。例如,毕业生和非毕业生的比例为78%对22%。然后通过将申请人收入分成4个相等的组,再进行25%的细分。这里任务是,从这些图表中生成洞察,并在评论区分享。

5. 如何清洗数据?

在这里,将通过插补缺失值来进行数据清洗。插补是理解和充分利用数据的非常重要的一步。

  1. 点击“文件”组件并拖动以找到“插补”组件。
  2. 放置后双击组件,将看到有各种插补方法可以使用。也可以使用默认方法或为每个类别单独选择个体方法。

在这里,选择了数值的默认方法为平均值,文本值(分类)的最频繁值。可以选择各种插补方法,如:

- 特定值 - 随机值 - 删除带有缺失值的行 - 基于模型

在训练模型的方法中还可以包括特征提取和生成。如需进一步了解,请访问这篇文章关于数据探索和特征工程。

从基础开始,首先训练一个包含所有特征的线性模型,以了解如何选择和构建模型。

  1. 首先,需要设置一个目标变量来应用逻辑回归。
  2. 转到“文件”组件并双击它。
  3. 现在,双击“Loan_Status”列并将其选为目标变量。点击应用。
  4. 一旦设置了目标变量,按照以下步骤从“插补”组件中找到干净数据,并放置“逻辑回归”组件。
  5. 双击组件并选择想要执行的正则化类型。
- 岭回归:执行L2正则化,即添加相当于系数大小平方的惩罚 - 最小化目标 = LS目标 + α * (系数平方和) - Lasso回归:执行L1正则化,即添加相当于系数大小绝对值的惩罚 - 最小化目标 = LS目标 + α * (系数绝对值和)

为了更好地理解这些,请访问关于岭回归和Lasso回归的链接。

选择了岭回归作为分析,可以在两者之间自由选择。

  1. 接下来,点击“插补”或“逻辑回归”组件并找到“测试和评分”组件。确保将数据和模型都连接到测试组件。
  2. 现在,点击“测试和评分”组件以查看模型表现如何。
  3. 为了更好地可视化结果,从“测试和评分”组件拖动并找到“混淆矩阵”。
  4. 放置后,点击它以可视化发现!

通过这种方式,可以测试不同的模型并查看它们的准确性如何。

让尝试评估随机森林的表现如何?将建模方法更改为随机森林并查看混淆矩阵。看起来不错,但逻辑回归表现更好。

再试一次支持向量机。比随机森林好,但仍然不如逻辑回归模型。

有时更简单的方法更好,不是吗?

这是在完成整个过程后的最终工作流的样子。如果希望在团队中工作,还可以导出工作流并发送给可以和一起工作的朋友!

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485