数据挖掘是从大量数据中发现有趣模式和知识的过程。数据来源包括数据库、数据仓库、网络和其他信息库,或者是动态流入系统的数据。这种分析是为了决策过程而进行的。数据挖掘将原本无意义的数据转化为信息,然后将信息转化为知识。数据挖掘也被称为数据库中的知识发现(Knowledge-Discovery-in-Databases,简称KDD)。
数据挖掘可以使用几种方法或数据挖掘任务来寻找、分析、探索和挖掘知识。根据Larose(2005)的研究,主要有五大任务:估计、预测、分类、聚类和关联。这些任务是数据挖掘领域的核心,它们帮助从数据中提取有价值的信息和知识。
无代码开发平台
Python和R是目前最流行的数据挖掘编程语言。但是,如果时间紧迫或者不熟悉Python,可以利用无代码开发平台。无代码开发平台允许通过拖放操作来执行数据挖掘任务,它还允许快速开发数据挖掘项目而无需编码。开发者和非开发者都可以使用这些工具来实践快速的数据挖掘开发,定制工作流程和功能。
RapidMiner简介
RapidMiner是一个全面的数据科学平台,具有可视化工作流设计和完全自动化的功能。这意味着不需要为数据挖掘任务编写代码。RapidMiner是最受欢迎的数据科学工具之一。
这是RapidMiner的空白流程的图形用户界面。它有一个存储库,用于保存数据集。可以导入自己的数据集,它还提供了许多公共数据集供尝试。还可以与数据库连接一起工作。
在存储库窗口下方,有一个操作符。操作符包括构建数据挖掘流程所需的一切,如数据访问、数据清洗、建模、验证和评分。
右侧是参数窗口。参数窗口用于调整操作符。
RapidMiner GUI
可以从RapidMiner的官方网站()下载RapidMiner。它有一个功能有限的免费版本。免费版本包括10,000行数据和1个逻辑处理器。
他们还提供了一个教育计划。学生、教授、讲师和研究人员可以免费获得教育许可证。
RapidMiner案例研究
让通过RapidMiner进行实践。在这个案例研究中,将使用内置的数据集,使用分类方法比较不同算法的准确性。
活动选择是启动RapidMiner应用程序时弹出的第一个界面。空白流程是从零开始构建的。它通过手动拖放操作符到流程字段来工作。这是中级用户选择的菜单。
Turbo Prep仅用于数据集准备。它包括转换、清理和合并数据集。Auto Model将引导执行数据挖掘任务。就像在Windows上安装应用程序一样。下一步-下一步和完成。
它还提供了许多模板供开始使用。将为这个案例研究选择Auto Model。
导入数据集
在这里,可以选择要使用的数据集。可以导入自己的数据集,或者从RapidMiner提供的数据集中选择。导入-新建-数据按钮位于选择数据列表下方,用于导入自己的数据集。
要使用RapidMiner提供的可用数据集,请单击样本文件夹,然后展开数据文件夹,让选择泰坦尼克号数据集作为案例研究,并单击绿色的下一步按钮。
请注意,在进度条中,只有六个简单的步骤可以使用RapidMiner执行数据挖掘任务。
数据挖掘方法选择
选择的数据集的详细信息将显示出来。泰坦尼克号是一个预测乘客是否会在泰坦尼克号船上生存的数据集,根据可用的输入参数。这个数据集有十一个输入(x)参数和一个标签(y)。
可以选择三个动作来处理数据集。预测、聚类和异常值。异常值按钮将帮助在数据中检测异常值。聚类将帮助在数据中检测共同的组。预测将根据给定的输入参数对数据进行分类。
在这里,可以观察数据集的输入参数。可以看到泰坦尼克号数据集包括分类和数值数据。目标标签以分类的格式,是或否。
选择预测按钮进行分类,选择Survived列作为标签或分类目标,然后单击下一步按钮。
数据平衡
在选择数据挖掘方法和选择目标列之后,将在图表中看到数据平衡。看到没有数据比是数据多。这种情况在现实中相当常见。比例大约是60:40,这是可以接受的。
当比例高于70:30时,需要开始担心。高度不平衡的类别将导致不平衡的预测。分类通常倾向于预测多数类别。
输入选择
在这一部分,可以从输入参数中排除列。默认情况下,所有列都包括在内。RapidMiner会推荐哪些列应该包括或排除。
请注意,默认情况下排除了前三行。这是因为状态是红色的。红色状态将自动被RapidMiner排除,尽管仍然可以包括它。可以将鼠标悬停在状态列的红色圆圈上以查看详细信息。
质量列将帮助做出决定。它包括五个重要参数CISMT。
Correlation (C) : 测量数据列和目标列之间的线性相关性。
ID-ness (I) : 测量列是否类似于ID。
Stabilty (S) : 表示几乎所有值都是相同的。
Missing (M) : 测量列中有多少缺失值。
Text-ness (T) : 测量列是否类似于自由文本。
算法选择
这是算法选择。RapidMiner将为提供几个流行的分类算法供选择。
这是可以选择的算法列表:
Naive Bayes
Generalized Linear Model
Logistic Regression
Fast Large Margin
Deep Learning
Decision Tree
Random Forest
Gradient Boosted Trees
Support Vector Machine
如果使用的数据集较小,可以选择全部。但是,在使用大型数据集时,需要明智地选择。因为选择的算法越多,所需的时间和硬件资源就越多。
选择它们后,单击运行按钮。
从结果中获得洞察
根据选择的算法数量,处理时间会更长。等待一段时间后,结果将显示出来。结果将作为表格和图表显示。
第一个图表将向展示分类错误比较。在这里,可以看到,从泰坦尼克号数据来看,DT和SVM的表现最差。图表越小越好。第二个图表将向展示运行时间比较。随机森林算法的运行时间最长。
虽然图表可以快速提供洞察,但表格将提供详细信息。模型名称列也有徽章。看看深度学习,它有两个徽章。徽章显示深度学习获得了最佳整体性能和最佳低成本计算。
导出结果
想象一下,如果必须手动准备数据,并使用深度学习算法创建分类代码。那本身就需要花费很多小时来编码。这只是一个算法,如果是编码所有算法并创建可视化呢?
在短短十分钟内,已经完成了数据挖掘过程,而无需从头开始编码的麻烦。所要做的就是单击下一步按钮并完成。
还可以将结果保存在各种格式中。Excel就是其中之一。单击上一个对话框中的导出按钮,然后单击所需的格式并完成。
无代码开发平台可以大大简化数据挖掘工作。
RapidMiner是有效的数据挖掘工具之一,节省了很多时间。
RapidMiner还包括数据预处理和算法选择。
在任务结束时,RapidMiner将为提供可视化,以便获得洞察。
与手动编码相比,RapidMiner完成的所有任务都非常轻松。
使用不同的数据集构建数据挖掘模型。
使用自己的数据集构建数据挖掘模型。
尝试使用另一种方法,聚类。