数据挖掘与无代码开发平台

数据挖掘是从大量数据中发现有趣模式和知识的过程。数据来源包括数据库、数据仓库、网络和其他信息库，或者是动态流入系统的数据。这种分析是为了决策过程而进行的。数据挖掘将原本无意义的数据转化为信息，然后将信息转化为知识。数据挖掘也被称为数据库中的知识发现（Knowledge-Discovery-in-Databases，简称KDD）。

数据挖掘可以使用几种方法或数据挖掘任务来寻找、分析、探索和挖掘知识。根据Larose（2005）的研究，主要有五大任务：估计、预测、分类、聚类和关联。这些任务是数据挖掘领域的核心，它们帮助从数据中提取有价值的信息和知识。

无代码开发平台

Python和R是目前最流行的数据挖掘编程语言。但是，如果时间紧迫或者不熟悉Python，可以利用无代码开发平台。无代码开发平台允许通过拖放操作来执行数据挖掘任务，它还允许快速开发数据挖掘项目而无需编码。开发者和非开发者都可以使用这些工具来实践快速的数据挖掘开发，定制工作流程和功能。

RapidMiner简介

RapidMiner是一个全面的数据科学平台，具有可视化工作流设计和完全自动化的功能。这意味着不需要为数据挖掘任务编写代码。RapidMiner是最受欢迎的数据科学工具之一。

这是RapidMiner的空白流程的图形用户界面。它有一个存储库，用于保存数据集。可以导入自己的数据集，它还提供了许多公共数据集供尝试。还可以与数据库连接一起工作。

在存储库窗口下方，有一个操作符。操作符包括构建数据挖掘流程所需的一切，如数据访问、数据清洗、建模、验证和评分。

右侧是参数窗口。参数窗口用于调整操作符。

RapidMiner GUI

可以从RapidMiner的官方网站（）下载RapidMiner。它有一个功能有限的免费版本。免费版本包括10,000行数据和1个逻辑处理器。

他们还提供了一个教育计划。学生、教授、讲师和研究人员可以免费获得教育许可证。

RapidMiner案例研究

让通过RapidMiner进行实践。在这个案例研究中，将使用内置的数据集，使用分类方法比较不同算法的准确性。

活动选择是启动RapidMiner应用程序时弹出的第一个界面。空白流程是从零开始构建的。它通过手动拖放操作符到流程字段来工作。这是中级用户选择的菜单。

Turbo Prep仅用于数据集准备。它包括转换、清理和合并数据集。Auto Model将引导执行数据挖掘任务。就像在Windows上安装应用程序一样。下一步-下一步和完成。

它还提供了许多模板供开始使用。将为这个案例研究选择Auto Model。

导入数据集

在这里，可以选择要使用的数据集。可以导入自己的数据集，或者从RapidMiner提供的数据集中选择。导入-新建-数据按钮位于选择数据列表下方，用于导入自己的数据集。

要使用RapidMiner提供的可用数据集，请单击样本文件夹，然后展开数据文件夹，让选择泰坦尼克号数据集作为案例研究，并单击绿色的下一步按钮。

请注意，在进度条中，只有六个简单的步骤可以使用RapidMiner执行数据挖掘任务。

数据挖掘方法选择

选择的数据集的详细信息将显示出来。泰坦尼克号是一个预测乘客是否会在泰坦尼克号船上生存的数据集，根据可用的输入参数。这个数据集有十一个输入（x）参数和一个标签（y）。

可以选择三个动作来处理数据集。预测、聚类和异常值。异常值按钮将帮助在数据中检测异常值。聚类将帮助在数据中检测共同的组。预测将根据给定的输入参数对数据进行分类。

在这里，可以观察数据集的输入参数。可以看到泰坦尼克号数据集包括分类和数值数据。目标标签以分类的格式，是或否。

选择预测按钮进行分类，选择Survived列作为标签或分类目标，然后单击下一步按钮。

数据平衡

在选择数据挖掘方法和选择目标列之后，将在图表中看到数据平衡。看到没有数据比是数据多。这种情况在现实中相当常见。比例大约是60:40，这是可以接受的。

当比例高于70:30时，需要开始担心。高度不平衡的类别将导致不平衡的预测。分类通常倾向于预测多数类别。

输入选择

在这一部分，可以从输入参数中排除列。默认情况下，所有列都包括在内。RapidMiner会推荐哪些列应该包括或排除。

请注意，默认情况下排除了前三行。这是因为状态是红色的。红色状态将自动被RapidMiner排除，尽管仍然可以包括它。可以将鼠标悬停在状态列的红色圆圈上以查看详细信息。

质量列将帮助做出决定。它包括五个重要参数CISMT。


                Correlation (C) : 测量数据列和目标列之间的线性相关性。
                ID-ness (I) : 测量列是否类似于ID。
                Stabilty (S) : 表示几乎所有值都是相同的。
                Missing (M) : 测量列中有多少缺失值。
                Text-ness (T) : 测量列是否类似于自由文本。

算法选择

这是算法选择。RapidMiner将为提供几个流行的分类算法供选择。

这是可以选择的算法列表：


                Naive Bayes
                Generalized Linear Model
                Logistic Regression
                Fast Large Margin
                Deep Learning
                Decision Tree
                Random Forest
                Gradient Boosted Trees
                Support Vector Machine

如果使用的数据集较小，可以选择全部。但是，在使用大型数据集时，需要明智地选择。因为选择的算法越多，所需的时间和硬件资源就越多。

选择它们后，单击运行按钮。

从结果中获得洞察

根据选择的算法数量，处理时间会更长。等待一段时间后，结果将显示出来。结果将作为表格和图表显示。

第一个图表将向展示分类错误比较。在这里，可以看到，从泰坦尼克号数据来看，DT和SVM的表现最差。图表越小越好。第二个图表将向展示运行时间比较。随机森林算法的运行时间最长。

虽然图表可以快速提供洞察，但表格将提供详细信息。模型名称列也有徽章。看看深度学习，它有两个徽章。徽章显示深度学习获得了最佳整体性能和最佳低成本计算。

导出结果

想象一下，如果必须手动准备数据，并使用深度学习算法创建分类代码。那本身就需要花费很多小时来编码。这只是一个算法，如果是编码所有算法并创建可视化呢？

在短短十分钟内，已经完成了数据挖掘过程，而无需从头开始编码的麻烦。所要做的就是单击下一步按钮并完成。

还可以将结果保存在各种格式中。Excel就是其中之一。单击上一个对话框中的导出按钮，然后单击所需的格式并完成。

无代码开发平台可以大大简化数据挖掘工作。

RapidMiner是有效的数据挖掘工具之一，节省了很多时间。

RapidMiner还包括数据预处理和算法选择。

在任务结束时，RapidMiner将为提供可视化，以便获得洞察。

与手动编码相比，RapidMiner完成的所有任务都非常轻松。

使用不同的数据集构建数据挖掘模型。

使用自己的数据集构建数据挖掘模型。

尝试使用另一种方法，聚类。

数据挖掘与无代码开发平台

无代码开发平台

RapidMiner简介

RapidMiner GUI

RapidMiner案例研究

导入数据集

数据挖掘方法选择

数据平衡

输入选择

算法选择

从结果中获得洞察

导出结果

计算机视觉中的人体姿态估计

Hive与Hadoop的集成及PySpark中的分区表处理

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379

数据挖掘与无代码开发平台

无代码开发平台

RapidMiner简介

RapidMiner GUI

RapidMiner案例研究

导入数据集

数据挖掘方法选择

数据平衡

输入选择

算法选择

从结果中获得洞察

导出结果

计算机视觉中的人体姿态估计

Hive与Hadoop的集成及PySpark中的分区表处理

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：15216758379

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379