数据科学项目精选

数据科学领域,理论知识的学习可以通过多种途径进行,包括课程学习、阅读书籍或浏览文章。然而,这些方法普遍缺乏一个基本要素——实践。实践是检验真理的唯一标准,也是提升和构建数据科学职业生涯的关键。

是否知道,许多顶级科技公司会在GitHub上开源他们的代码?这是学习和应用数据科学的绝佳方式——获取开源代码,理解它,与之互动,并构建自己的模型!

自然语言处理(NLP)项目

NLP是目前数据科学中最热门、发展最快的领域之一,不断有新的突破发生。认为,几乎还没来得及掌握一个新框架,另一个新框架就出现了。

以下四个NLP项目将让充满激情!

预训练模型在当前非常流行。大多数人家里没有闲置的GPU(更不用说多个GPU),因此从头开始编码深度神经网络模型几乎是不可能的。

预训练模型的出现,与迁移学习的出现密不可分——即在一个数据集上训练模型,然后将该模型适应到另一个数据集上执行不同的NLP功能。预训练模型使能够使用现有的模型并与之互动。

这个GitHub仓库收集了60多个预训练语言模型,包括BERT、XLNet、ERNIE、ELMo、ULMFiT等。以下是这个仓库中将找到的论文的图解说明:

这个项目展示了一个简单的想法如何产生强大的结果。墨西哥政府在9月1日发布了年度报告,该项目的创建者决定使用简单的NLP文本挖掘技术来发现模式和洞察。

在上述链接中强调的第一个挑战是从PDF文件中提取所有文本。他使用了名为PyPDF2的库来完成这项工作。整个过程在这个项目中都有详细记录,并且附有逐步解释和Python代码。

如果直到现在还没有听说过BERT,真的需要迎头赶上!由谷歌开发的BERT框架一夜之间改变了NLP领域。

但是,原始的BERT预训练模型体积庞大。不能简单地解压缩它们,将它们插入模型,并期望它们在本地机器上运行(除非有几块GPU闲置)。

这导致了ALBERT的创建——BERT的轻量级版本,用于构建语言模型。ALBERT在许多NLP任务上实现了最先进的性能,但参数仅为30%(没看错)。

这是列表中更吸引人的数据科学项目之一。认为,作为社区没有花足够的时间讨论网络威胁以及如何使用数据科学构建强大的解决方案。

StringSifter由FireEye首创,是“一个机器学习工具,它根据字符串对恶意软件分析的相关性自动进行排名”。这意味着什么?根据开发者的说法,恶意软件程序通常包含字符串,如果它想要执行创建注册表项、复制文件到特定位置等操作。

这可以提供关键的洞察,帮助构建强大的恶意软件检测程序。这是一个绝对应该了解更多的主题,已经收集了两篇优秀文章,帮助入门:

计算机视觉项目

是否曾经使用过图像数据?视频呢?那么,应该学习如何使用它们。计算机视觉技术的进步意味着对专家的需求巨大。

所以,可以通过查看以下两个GitHub上的计算机视觉项目来提升技能,并立即开始应用!如果对计算机视觉的世界还不熟悉,建议参加以下全面的课程:

在行业中,处理图像数据的能力非常受欢迎。这并不奇怪,对吧?如今上传和发布的图像数量是前所未有的。而且这种速度在未来几年只会增加。

Tiler是一个非常棒的工具,它帮助使用各种较小的图像(确切地说是瓦片)来创建图像。

正如这个仓库所说,“一个图像可以用圆圈、线条、波浪、十字绣、乐高积木、回形针、字母……来构建。可能性是无穷无尽的!”

在当今的数字世界中,隐私非常稀缺。所做的每一个动作和每一次屏幕触摸都被记录、存储、分析并用于提供定制的广告和优惠(以及其他许多事情)。这种缺乏隐私的一个主要缺点是对图像的操纵。

相信一定听说过DeepFakes。对于不了解的人来说,它能够仅用几幅图像就能操纵一个人的表情和面部肌肉。这仍然是一个问题,因为背后的算法,称为生成对抗网络(GAN),一直在发展。

这就是非常喜欢DeepPrivacy的原因——一种完全自动的图像匿名化技术。DeepPrivacy背后的GAN模型从未见过任何隐私敏感信息。它生成图像时会考虑人的原始姿势和图像背景。

其他有用的数据科学项目

TubeMQ – 存储和传输大数据(腾讯)

一直对顶级科技公司如何存储和提取他们的数据感到着迷。当数据操作扩大10000倍时是什么感觉?这类信息通常不会完全公开。

这就是为什么应该感谢腾讯开源他们的分布式消息队列(MQ)系统TubeMQ。自2013年以来一直在使用,这意味着几乎有七年的数据操作经验可供参考!

TubeMQ专注于“大数据场景下海量数据的高性能存储和传输”。用户指南提供了如何利用TubeMQ为组织服务的逐步解释。

DeepCTR – Torch

是否曾经处理过点击率(CTR)问题?它既有趣又复杂,而且肯定需要很多努力来揭开它。

DeepCTR是一个易于使用的基于深度学习的CTR模型包。它包含多个组件层,可以用来构建自定义模型。可以使用任何想要的模型,使用model.fit()和model.predict()。可以看到sklearn的粉丝在微笑!

原始的DeepCTR项目是在TensorFlow中。现在TF很棒,但并不适合每个人。这就是DeepCTR-Torch仓库的诞生。它提供了整个原始的DeepCTR代码在PyTorch中。

现在就通过pip安装它:

pip install -U deepctr-torch
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485