精选开源数据科学项目

在数据科学领域，从计算机视觉到自然语言处理（NLP），各种项目层出不穷。最近，协助进行了一轮开放数据科学家职位的面试。候选人来自各种背景——软件工程、学习与发展、金融、市场等。令印象深刻的是，这些候选人中有些人已经完成了令人惊叹的项目范围。他们可能没有太多的数据科学行业经验，但他们对学习新概念的热情和好奇心驱使他们探索未知领域。一个共同的主题是——开源数据科学项目。已经在近两年来一直强调它们的价值！相信，招聘人员和招聘经理会欣赏为一个以前从未见过的项目所付出的额外努力。

这个项目可以是目前正在工作的领域，也可以是想要进入的领域。而且，这些项目并不缺乏。在这里，将在本文中介绍六个这样的开源数据科学项目。当在制作候选名单时，总是尝试保持多样化的投资组合——这篇文章也不例外。将从计算机视觉到自然语言处理（NLP）等领域找到项目。这是每月GitHub系列的第10期。自从在2018年1月开始这个系列以来，从社区收到了压倒性的积极反馈。如果错过了今年的文章，可以在这里查看：

开源计算机视觉项目

计算机视觉专家的需求每年都在稳步增长。它已经确立了自己作为行业领先领域的地位（这对于任何关注最新行业趋势的人来说都不奇怪）。作为数据科学专业人士，有很多可以做和学习的东西。以下是三个会觉得有趣的开源计算机视觉项目。如果是这个新兴领域的新手，建议查看以下受欢迎的课程：

去年接触到了视频到视频（vid2vid）合成的概念，对其效果印象深刻。vid2vid本质上是将语义输入视频转换为超逼真的输出视频。自那时以来，这个想法已经取得了长足的进步。但目前这些vid2vid模型有两个主要限制：它们需要大量的训练数据；这些模型很难泛化到训练数据之外。这就是NVIDIA的Few-Shot vid2vid框架的用武之地。正如创建者所说，可以用它来“从姿势生成人类动作，从边缘图合成人们说话，或者将语义标签图转换为照片级真实的视频。”

这个GitHub仓库是Few-Shot vid2vid的PyTorch实现。可以在这里查看完整的研究论文（它也在2019年NeurIPS上展示过）。这里有开发者分享的视频，展示了Few-Shot vid2vid的实际效果。

这是一个了不起的开源发布。不要被中文页面吓倒（可以很容易地将其翻译成英文）。这是一个超轻型的面部检测模型——计算机视觉的一个非常有用的应用。这个面部检测模型的大小只有1MB！不得不读了几遍才相信。这个模型是基于libfacedetection架构的边缘计算设备上的轻量级面部检测模型。模型有两个版本：


    Version-slim (slightly faster simplification)
    Version-RFB (with the modified RFB module, higher precision)

这是一个很棒的仓库，可以让亲自动手。通常不会得到这样的机会在本地机器上构建计算机视觉模型——不要错过这个机会。如果是面部检测和计算机视觉世界的新手，推荐查看以下文章：

是自动驾驶汽车的超级粉丝。但由于各种原因（架构、公共政策、社区接受度等），进展一直很慢。所以，看到任何承诺为这些自动驾驶汽车带来更好未来的框架或算法总是令人振奋的。对象检测算法是这些自动驾驶车辆的核心——相信已经知道了。以高准确性和快速推理速度检测对象对确保安全至关重要。所有这些已经存在了几年，那么这个项目有什么不同呢？

Gaussian YOLOv3架构提高了系统的检测准确性，并支持实时操作（这是一个关键方面）。与传统的YOLOv3相比，Gaussian YOLOv3在KITTI和Berkeley deep drive (BDD)数据集上分别提高了平均精度均值（mAP）3.09和3.5。

其他开源数据科学项目

本文不仅限于计算机视觉！正如在引言中提到的，目标是涵盖数据科学的方方面面。因此，这里有三个项目，从自然语言处理（NLP）到数据可视化！

谷歌怎么可能不出现在“最新突破”名单上呢？他们在机器学习、深度学习和强化学习研究上投入了大量资金，他们的成果也反映了这一点。很高兴他们时不时地开源他们的项目——可以从中学到很多东西。T5，即Text-to-Text Transfer Transformer，由转移学习的概念驱动。在这个最新的NLP项目中，T5背后的开发者引入了一个统一的框架，将每个语言问题转换为文本到文本的格式。

这个框架在各种基准测试中取得了最先进的结果，包括摘要、问答、文本分类等任务。他们在GitHub仓库中开源了数据集、预训练模型和T5背后的代码。正如谷歌人所说，“T5可以作为未来模型开发的库，为在混合文本到文本任务上训练和微调（可能）大型模型提供有用的模块。”

最近看了很多关于图的文章。它们是如何工作的，图的不同组成部分是什么，知识在图中如何流动，这个概念如何应用于数据科学等——这些问题确定现在也在问。可以将图论的某些分支应用于数据科学，如知识树和知识图。

从这个意义上说，这个项目是一个庞然大物。这是历史上最大的中文知识图，拥有超过1.4亿个点！数据集以（实体，属性，值），（实体，关系，实体）的形式组织。数据是.csv格式的。这是一个很棒的开源项目，可以展示图技能——不要犹豫，立即深入。

是数据可视化的超级粉丝——这不是秘密。已经在这个话题上写了很多文章，并且正在创建一个关于这个话题的课程（可以在这里查看）。所以，总是抓住机会在这些文章中包含数据可视化库或项目。

RoughViz就是这样一个JavaScript库，用于生成手绘草图或可视化。它基于D3v5、roughjs和handy。可以使用以下命令在机器上安装roughViz：

npm install rough-viz

这个GitHub仓库包含了如何使用roughViz的详细示例和代码。以下是可以生成的不同图表：

条形图
水平条形图
甜甜圈图
折线图
饼图
散点图

结束语

应用机器学习
使用深度学习的计算机视觉
使用Python的自然语言处理（NLP）

强化学习在现实世界的应用

本文介绍了强化学习在现实世界中的多个应用案例，包括在出租车服务、工业应用、金融投资等领域的实际应用，并提供了相关专家的见解和学习资源。

构建机器学习流水线：PySpark实战指南

本文将介绍如何使用PySpark构建机器学习流水线，涵盖数据预处理、特征提取、模型训练等关键步骤。

精选开源数据科学项目

开源计算机视觉项目

其他开源数据科学项目

结束语

强化学习在现实世界的应用

构建机器学习流水线：PySpark实战指南

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379

精选开源数据科学项目

开源计算机视觉项目

其他开源数据科学项目

结束语

强化学习在现实世界的应用

构建机器学习流水线：PySpark实战指南

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：15216758379

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379