开源数据科学项目探索

在当前这个充满挑战的时代,许多人发现在家学习变得异常困难。中的大多数人都面临着需要同时处理的众多事务,而学习,与最初的预期相反,已经退居次要位置。那么,如何重新回到正轨呢?如何将数据科学的学习与实践经验结合起来呢?

对帮助极大的一个关键点是选择一个开源的数据科学项目并深入研究。这不仅帮助理解了需要改进的关键领域,而且还为指明了前进的方向。这些项目并不是普通的数据科学项目。这些是特定的项目,它们解决了数据科学的某个子领域,比如计算机视觉、网络分析等。项目可能是一个数据集、一个推动数据科学领域发展的最先进的库,甚至是一个开源的分析工具。

所以,选择一个吸引项目,今天就开始工作吧!可以查看开源数据科学项目完整档案。

疫情期间可以尝试的6个开源数据科学项目

开源计算机视觉项目

得益于PyTorch的强大功能,今年在计算机视觉领域看到了大量出色的用例。在这里,挑选了一些会喜欢探索和深入研究的杰出计算机视觉项目。如果是这个领域的新手并且想要开始,那么查看这些资源:

# 深度学习基础 # 2020年掌握计算机视觉的学习路径

将任何图像转换为3D照片

这是一个精致的计算机视觉用例。将图像转换为三维照片曾经需要复杂的Photoshop工具和深入的知识。现在,得益于深度学习和计算机视觉的进步,可以用几行代码就完成这种转换!这个在GitHub上开源的项目正是这样做的。它接受一个单一的RGB-D输入图像并将其转换为3D照片。如果喜欢深度学习的术语,那么这就是“一个多层表示,用于新视图合成,包含在原始视图中被遮挡区域的幻觉颜色和深度结构”。

查看使用这个框架可以实现的示例:

# 非常漂亮,对吧?

这个项目,可能已经猜到了,是用PyTorch完成的。这是一个真的应该开始熟悉的框架:

# PyTorch初学者指南以及如何从头开始工作 # 用于深度学习的PyTorch入门(免费课程)

将图像转换为卡通插图

如果没有太多时间,这是一个甜蜜的副项目。它就像盒子上说的——给模型一个输入图像,它就会将其转换为卡通版本:

能猜到这个项目背后的计算机视觉概念是什么吗?是的——生成对抗网络(GANs)。对这个领域自2014年开源以来的快速发展感到非常惊讶。从CycleGANs到StarGANs,可以选择的框架数不胜数。

这个照片到卡通项目的开发者已经开源了一个预训练的模型,帮助快速加载并在机器上执行。以前见过一些尝试,但这是遇到的最真实的转换。

# 什么是生成模型和GANs? # GANs的5个应用

一次性多目标跟踪

目标检测框架近年来取得了显著进展。已经从在静态图像上生成简单的边界框发展到在视频中跟踪动态目标。这就是计算机视觉的力量。

然而,将目标检测和重新识别的概念结合起来的进展一直很缓慢(至少可以说!)。在这项引人入胜的研究中,研究人员提出了一个简单的基线,使用一次性多目标跟踪来解决这个差距。

查看他们的模型在行动中的表现:

# 他们开源的基线模型在公共数据集上的表现超过了最先进的技术,速度为30fps。

如果想学习目标检测,建议浏览以下教程:

# 核心目标检测算法的逐步指南 # 所有Analytics Vidhya关于目标检测的教程

其他令人敬畏的开源数据科学项目

在这里整理了一个杂项开源数据科学项目的列表,从音频生成到体育分析。试试最喜欢的,享受学习体验!

OpenAI的Jukebox:音乐生成模型

一看到OpenAI的标题就点击了这个项目。是他们工作的大粉丝,欣赏他们对开源主要发展的态度,以便于一般的数据分析社区。谁不喜欢GPT-2呢?

Jukebox,正如音乐迷们直观理解的那样,是一个神经网络模型,它在原始音频领域生成带有歌唱的音乐。OpenAI已经开源了模型权重和代码,以及一个探索生成样本的工具。

Jukebox的工作原理是这样的——提供流派、艺术家和歌词作为输入,神经网络就给一个新的从头开始制作的音乐样本。Jukebox可以生成的音乐范围令人惊叹。这是一个迷人的项目!

# 使用深度学习进行音频数据分析入门 # 使用深度学习生成自己的音乐

ShyNet – 隐私友好且无Cookie的网络分析

这些是ShyNet旨在填补的关键空白。以下是开发者的说法:

# 自己托管它,所以数据是。 # 它不需要cookies,所以不需要任何侵入性的cookie通知。 # 它只收集足够有用的数据,但不足以令人毛骨悚然。它是开源的, # 打算自己托管。甚至可能发现界面很容易使用。

这是ShyNet默认首页的样本截图:

如果想知道ShyNet可以给提供什么关键指标,等待结束了:

# 点击次数 # 会话 # 页面加载时间 # 跳出率 # 持续时间 # 引荐者 # 位置 # 操作系统 # 浏览器 # 地理位置和网络 # 设备类型

请记住,ShyNet在当前格式下非常适合小型或中型企业。如果在大公司,可能不太理想。上面链接的GitHub仓库包含了ShyNet如何工作以及如何开始使用的全面介绍。

建议浏览以下深入指南,了解数字营销的世界(其中网络分析是一部分):

# 数字营销和分析的全面指南

这是个人最喜欢的。是一个狂热的足球迷,并且已经深入研究体育分析领域很长时间了。与其他国家相比,美国体育在这个领域的进展要快得多,适应性也更强,但欧洲足球俱乐部终于开始行动起来了。例如,利物浦就非常依赖从上到下的数据分析方法,包括规划他们的招聘策略。

# 足球分析工作中值得拥有的技术技能的资源和建议 # 展示如何使用足球数据集的Python教程集合 # 关于足球分析最新发展的研究论文和文章
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485