在统计分析和计算领域,R语言因其丰富的特性而被广泛使用。研究人员和数据科学家利用R进行数据科学和机器学习工作,其特点包括开源、快速、交互式可视化库、无需编译即可运行代码、良好的社区支持等。R语言之所以越来越受欢迎,部分原因在于其为数据科学、机器学习和人工智能项目提供了大量的R包。通过这些包,可以轻松高效地开发预测模型。本文将介绍2021年数据科学和机器学习领域中最重要的10个R包。
Dplyr是由Hadley Wickham编写的R包,用于数据科学和机器学习任务中的数据操作。它提供了一系列数据操作函数,也被称为数据操作语法。Dplyr包含一组动词,帮助解决如mutate()、select()、filter()、summarise()、arrange()等最具挑战性的数据操作任务。
install.packages('dplyr')
更多信息,请访问:
ggplot2是R中用于数据可视化和探索性数据分析的最流行和广泛使用的包之一。可以使用此包创建交互式数据可视化。它提供了广泛的漂亮图表,同时处理细节和绘制图例。此包基于称为“图形语法”的深层语法。它提供了广泛的图表,如散点图、气泡图、抖动图、直方图、密度图、箱线图、小提琴图、树状图等。
install.packages('ggplot2')
更多信息,请访问:
KernLab包也称为基于核的机器学习实验室。此包用于回归、分类、降维、异常检测、聚类。如果想使用涉及基于核的方法的算法,那么可以使用它,如SVM、排名算法、核特征分析等。它广泛用于SVM实现。它提供了广泛的核函数,例如对于多项式核函数,可以使用polydot(),双曲正切核函数可以使用tanhdot()等。
install.packages('kernlab')
更多信息,请访问:
DataExplorer R包是数据科学和机器学习中最容易使用的包之一。此包主要关注三个目标:探索性数据分析、特征工程、数据报告。此包通过可视化数据集中的每个特征,自动化了分析任务和预测建模的探索性数据分析。
install.packages('DataExplorer')
要找到数据集的广泛概述,可以使用以下代码:
introduce(data)
要可视化上述表格,可以使用以下代码:
plot_intro(data)
更多信息,请访问:
Caret也称为分类和回归训练。它是数据科学和机器学习任务中最好的包之一。它包含一组用于创建预测模型的函数。它还有其他功能,如特征选择、数据拆分、数据预处理、模型调整、特征重要性等。
install.packages('caret')
更多信息,请访问:
Random Forest是R中用于机器学习的最受欢迎的包之一。此包用于在R中创建随机森林。它可以用于分类和回归任务。还可以使用它来训练缺失值和异常值。此包使用Breiman的随机森林算法构建决策树。
install.packages('randomForest')
更多信息,请访问:
Shiny是一个用于构建数据科学交互式Web应用程序的R包。它帮助轻松地制作R Web应用程序。Shiny创建的Web应用程序可以部署在Web上,使用服务器或R shiny的托管服务。R shiny的特点包括创建应用程序时不需要太多Web工具知识,提供实时可视化、渲染函数等。
使用shiny的Web应用程序示例:
更多信息,请访问:
mboost包用于数据科学中的基于模型的增强包,具有用于优化决策树的功能性梯度下降算法。它还提供了一个交互模型,以处理潜在的高维数据。
install.packages('mboost')
更多信息,请访问:
Plotly是一个绘图库,用于创建交互式图表。它是plotly.js的高级接口,基于d3.js。它提供了一个易于使用的用户界面,用于生成slick D3交互式图形。这些交互式图表提供了许多功能,如放大和缩小图表的能力,悬停在一个点上以获取额外信息,过滤数据等。
它提供了如散点图、线图、条形图、饼图、气泡图、箱线图、直方图、误差条、小提琴图等图表的示例。
更多信息,请访问:
SuperML是R中著名的AI包之一,为使用Python和R两种编程语言构建AI模型的客户提供标准接口。这个包本质上提供了Scikit Learn的功能,并预测了在R中准备AI模型的接口。除了构建AI模型外,还有方便的功能进行特征工程。
install.packages('superml')
更多信息,请访问:
感谢阅读本文并耐心等待。请在评论区告诉反馈。分享这篇文章,这将激励为数据科学社区撰写更多博客。