精选开源数据科学项目

在数据科学领域,总有一些引人入胜的项目值得关注。这些项目不仅包括如何将深度学习模型投入生产,还包括了衡量人工智能的新方法等。每个项目都提供了从开始到结束的代码,可以直接下载并在机器上开始实践。

上次在日常工作之外开展数据科学项目是什么时候?承认自己并不经常这样做。往往陷入职业生活中,在学习方面有所疏忽。这是一个不能忽视的步骤!

数据科学是当前增长最快的行业之一,这得益于数据和计算能力的空前增长。无论领域是自然语言处理(NLP)、计算机视觉还是其他,了解最新的技术和框架都是没有借口的。而学习、实践和应用这些最先进的技术的最佳方式就是通过数据科学项目。

本文是开始的完美之地。为整理了六个具有挑战性但功能强大的开源数据科学项目,帮助磨练和完善技能。也为每个项目提供了完整的代码,所以可以立即下载并在自己的机器上开始工作!

开源深度学习项目

很少遇到关于3D深度学习的工作。这就是为什么发现这个GitHub仓库非常吸引人。3D深度学习的潜力是诱人的,也可能是独特的。想一想——3D成像、地理空间分析、建筑等领域——如此多的数据点在起作用!

Kaolin是一个旨在加速3D深度学习研究的PyTorch库。这个PyTorch库为深度学习系统中使用的3D模块提供了高效的实现——相信所有行业老手都会对此表示赞赏。

通过Kaolin,获得了大量功能,包括加载和预处理流行的3D数据集、评估和可视化3D结果等。特别喜欢Kaolin的一点是,开发者们策划了多个最先进的深度学习架构,帮助任何人开始这些项目。可以在这里阅读更多关于Kaolin及其工作原理的官方研究论文。

机器学习模型投入生产是大多数有抱负的数据科学家没有准备好的挑战性任务。大多数课程不教授这一点。不会在很多文章和博客中找到关于它的讨论。但知道如何将模型投入生产是每个组织都希望数据科学家拥有的关键技能。

现在,对于深度学习模型来说,这一点更加复杂和具有挑战性。确实构建了一个健壮的深度学习模型,但是接下来呢?如何将这个模型带给最终用户?如何部署一个深度学习模型?

这就是这个生产级别的深度学习项目的用武之地。需要几个不同的组件来部署一个生产级别的深度学习系统:上述GitHub仓库包含了工具集和框架以及深度学习专家遵循的一套最佳实践。非常喜欢每个步骤在全栈深度学习管道中被简洁地映射和总结的方式。将在可预见的未来部署深度学习模型时反复参考它。

开源人工智能(AI)、NLP和其他数据科学项目

近年来,图已成为机器学习生命周期中的一个重要部分。它们是分析数据、构建推荐系统、挖掘社交网络等的有效和高效方法。简而言之——它们非常有用。

Plato是一个分布式图计算和机器学习框架。它由腾讯的开发人员开发,并最近开源。Plato是一个最先进的框架,拥有令人难以置信的计算能力。在分析数十亿个节点时,Plato可以将计算时间从天缩短到分钟(这就是图的力量!)。

因此,与其依赖数百台服务器,Plato可以在仅十台服务器上完成任务。腾讯也在微信平台上使用Plato(对于所有文本熟练的读者来说)。

HuggingFace是见过的最活跃的NLP领域研究小组。他们似乎在官方开发者宣布新版本和框架后仅几小时就推出了新版本和框架——这令人难以置信。强烈建议在Twitter上关注HuggingFace,以跟上他们的工作。

他们的最新发布是Transformers v2.2.0,其中包括四个新的NLP模型(以及其他新功能):

  • ALBERT(PyTorch和TensorFlow):BERT的轻量级版本
  • CamamBERT(PyTorch):法语模型
  • GPT2-XL(PyTorch和TensorFlow):由OpenAI迭代的GPT-2
  • DistilRoberta(PyTorch和TensorFlow)

如往常一样,有最新的最先进的NLP框架的教程:

这是一个与通常在这些文章中包含的项目略有不同的项目。但觉得它很重要,因为离接近人工通用智能还有很长的路要走。

ARC,即抽象和推理语料库,是一个旨在模拟“类似人类的通用流体智能”的人工通用智能基准。这个想法和背后的研究是由流行框架Keras的François Chollet完成的。

Chollet先生在他的研究论文“论智能的度量”中,根据算法信息理论提供了智能的更新定义。他还提出了一套新的指导方针,展示什么是通用AI基准。而ARC就是基于这些指导方针的基准。

认为这是一个非常重要的话题,将在社区引发很多讨论。这是一件健康的事情,有望引领更多关于这个话题的研究,并可能在人工通用智能领域迈出一大步。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:15216758379