在数据科学领域工作超过一年的时间里,经常被问到关于如何开始数据科学之旅的问题。特别是在旅程刚开始时,这个问题尤为重要。在看来,这个问题的存在本身就是不合理的。在21世纪,没有一个领域不期待候选人通过某种形式的自实践来展示他/她的兴趣、理解和技能。数据科学也是如此。
数据科学项目是向世界展示对主题理解的最佳方式。所做的项目是编程技能、所学知识和结构化思维的体现。让告诉一个小秘密——“所做的数据科学项目是打开被称为面试的棘手之门的钥匙。”
随着数据科学的重要性日益增加,为带来了上个月发布的6个开源数据科学项目,这些项目可以让作品集脱颖而出。
要充分利用数据科学之旅,选择正确的课程、拥有合适的导师指导以及与行业相关的项目是关键,这将使成为行业所需的人才。
让将项目分为几个类别。
FaceX-Zoo是本月最令人印象深刻的项目之一。随着面部识别在计算机视觉领域变得越来越重要,FaceX-Zoo是一个不容错过的开源数据科学项目。
FaceX-Zoo
是一个面部识别的PyTorch工具箱。它包含一个训练模块,具有不同的监督头部和主干网络,以实现最先进的面部识别。它有一个标准化的评估模块,只需编辑一个简单的配置,就可以在大多数流行的基准测试中评估模型。
此外,FaceX-Zoo还提供了一个简单但功能完备的面部SDK,用于验证和初步应用训练好的模型。FaceX-Zoo可以轻松升级和扩展,随着面部相关领域的发展。
Bottleneck Transformer – Pytorch是计算机视觉中的另一个令人惊叹的项目,非常适合添加到数据科学作品集中。
论文中提到:“这是一个简单而强大的主干架构,它结合了自注意力,用于多种计算机视觉任务,包括图像分类、目标检测和实例分割。”
基线模型通过简单地替换ResNet中的最后三个瓶颈块,无需其他更改,就能看到显著的改进。听起来很有前景,不是吗?
Bottleneck Transformer具有成为未来自注意力模型视觉研究的强有力基线的潜力。
StyleGAN2-ADA — Official PyTorch implementation当生成对抗网络使用过小的数据进行训练时,可能会导致判别器过拟合,从而使训练发散。这个项目通过包含一个自适应判别器增强机制来解决这个问题,可以在有限数据的情况下稳定训练。
该项目承诺包括:
与其它项目相比,StyleGAN2-ADA具有更高的速度和效率,是一个不错的开源项目,可以添加到作品集。
Trankit是另一个上个月发布的令人印象深刻的开源数据科学项目。
Trankit是一个轻量级的基于变换器的Python自然语言处理工具包,支持多语言。它的两个主要组成部分包括:
Trankit的另一个令人印象深刻之处在于,它在90个不同语言的90个Universal Dependencies v2.5树库中的许多任务上超越了当前最先进的多语言工具包Stanza(StanfordNLP),而没有牺牲内存使用和速度的效率,使其能够被更广泛的受众使用。
EasyNMT – Easy to use, state-of-the-art Neural Machine Translation凭借简单的安装、使用和自动下载预训练的机器翻译模型,EasyNMT将轻松使NLP作品集脱颖而出。
它支持150多种语言之间的翻译,以及170多种语言的自动语言检测,以及句子和文档翻译。
目前,该项目提供了以下模型:
Opus-MT
。SeaLion是一个出色的机器学习项目,旨在以更简单的方式教授概念,使用简洁的算法高效完成任务。
SeaLion旨在以一种既提供直觉又提供应用方式的方式,教授当今有抱负的机器学习工程师当今流行的机器学习概念。
对于解决标准库如iris、乳腺癌、瑞士卷、月亮数据集、MNIST等,SeaLion对初学者非常友好。SeaLion中的算法包括:
哇,这些项目真多。目标始终是尽可能多样化的项目,这样就可以选择适合数据科学之旅的项目。如果刚刚开始,建议从SeaLion项目开始。这是一个获得领先优势的好机会。