GitHub上的七大数据科学项目

数据科学的旅途中,是否准备好迈出下一步?虽然使用流行的数据科学库和框架处理小型数据集是一个很好的开始,但如果想在竞争中脱颖而出,需要跨越并区分自己。一种绝妙的方法是从事数据科学最新突破的项目。想成为计算机视觉专家?学习最新的目标检测算法是如何工作的。如果使命是自然语言处理(NLP),那么了解Transformer架构的各种方面和衍生物。意思是——始终准备好并愿意从事新的数据科学技术。这是行业中增长最快的领域之一,作为数据科学家需要与之一起成长。

数据科学GitHub项目概览

以下是七个可以帮助提升知识的数据科学GitHub项目。保持了广泛的领域,包括从机器学习强化学习的项目。如果遇到了这个列表中没有的库,请在文章下方的评论部分让社区知道!

pyforest - 一键导入所有Python数据科学

真的很喜欢这个Python库。正如上面的标题所示,通常的数据科学库只需使用一个库——pyforest即可导入。查看从库的GitHub存储库中取出的这个快速演示:

pip install pyforest

安装库后,可以在一行代码中导入所有流行的Python数据科学库:

from pyforest import *

太棒了!非常喜欢使用这个,相信也会喜欢。如果是Python新手,可以查看下面的免费课程:

HungaBunga - 使用sklearn构建机器学习模型的不同方式

如何选择构建的机器学习模型中的最佳模型?如何确保正确的超参数值?这些是数据科学家需要回答的关键问题。而HungaBunga项目将帮助比大多数数据科学库更快地找到答案。它运行所有sklearn模型(是的,全部!)以及所有可能的超参数,并使用交叉验证对它们进行排名。

from hunga_bunga import HungaBungaClassifier, HungaBungaRegressor

应该查看下面的关于监督机器学习算法的全面文章:

Behavior Suite for Reinforcement Learning (bsuite) by DeepMind

DeepMind最近因为年复一年的巨额亏损而成为新闻焦点。但让面对现实,该公司在强化学习领域的研究仍然遥遥领先。他们在这个领域下了大赌注,作为人工智能的未来。

所以,他们最新的开源发布——bsuite来了。这个项目是一系列旨在理解强化学习代理核心能力的实验。喜欢这个研究领域,因为它本质上试图实现两个目标(根据他们的GitHub存储库):

  1. 收集信息丰富且可扩展的问题,捕捉设计高效和通用学习算法中的关键问题
  2. 通过这些共享基准测试的性能来研究代理的行为

GitHub存储库包含如何在项目中使用bsuite的详细说明。可以使用以下代码安装它:

pip install git+git://github.com/deepmind/bsuite.git

如果是强化学习新手,这里有几篇文章可以让入门:

DistilBERT - 谷歌BERT的更轻更便宜的版本

可能已经听说过BERT。它是最受欢迎的,并且很快成为广泛采用的自然语言处理(NLP)框架之一。BERT基于Transformer架构。但它有一个缺点——它可能相当资源密集。那么数据科学家如何在自己的机器上使用BERT呢?站出来——DistilBERT!

DistilBERT,简称Distillated-BERT,来自流行的PyTorch-Transformers框架团队。它是一个小型且便宜的Transformer模型,基于BERT架构构建。根据团队的说法,DistilBERT运行速度比BERT快60%,同时保持了BERT超过95%的性能。

这个GitHub存储库解释了DistilBERT的工作原理以及Python代码。可以在这里了解更多关于PyTorch-Transformers以及如何在Python中使用它:

ShuffleNet系列 - 为移动设备设计的极其高效的卷积神经网络

这是一个计算机视觉项目!ShuffleNet是一个极其计算效率高的卷积神经网络(CNN)架构。它为计算能力非常有限的移动设备而设计。

这个GitHub存储库包括以下ShuffleNet模型(是的,有多个):

  • ShuffleNet:为移动设备设计的极其高效的卷积神经网络
  • ShuffleNetV2:高效CNN架构设计的实用指南
  • ShuffleNetV2+:ShuffleNetV2的加强版本。
  • ShuffleNetV2.Large:基于ShuffleNetV2的更深层次版本。
  • OneShot:单路径一次性神经架构搜索,采用均匀采样
  • DetNAS:用于目标检测的骨干搜索

如果想了解CNN,知道为提供了:

RAdam - 改善学习率的方差

RAdam在不到两周前发布,已经积累了1200+星标。这告诉这个存储库做得有多好!

RAdam背后的开发者在他们的论文中表明,在深度学习技术中面临的收敛问题是由于模型训练早期自适应学习率的不期望的大方差。RAdam是Adam的新变体,它纠正了自适应学习率的方差。这个发布带来了对普通Adam优化器的实质性改进,后者确实受到方差问题的困扰。

以下是RAdam与不同学习率的Adam和SGD的性能比较(X轴是训练周期数):

绝对应该查看下面的关于机器学习优化的指南(包括Adam):

在这里查看这个数据科学项目。

ggtext - 为ggplot2改进文本渲染

这是给社区的所有R用户的。特别是所有经常使用出色的ggplot2包(基本上是每个人)的用户。

ggtext包使能够为生成的图表产生富文本渲染。以下是可以使用ggtext尝试的一些内容:

  • 一个名为element_markdown()的新主题元素将文本渲染为markdown或HTML
  • 可以在轴上包含图像(如上图所示)
  • 使用geom_richtext()产生markdown/HTML标签(如下所示)
devtools::install_github("clauswilke/ggtext")
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485