在全球范围内的封锁中,各国政府正努力控制当前的局势。但并非一切都那么悲观——特别是如果打算提升数据科学技能,并在危机结束后带着扎实和行业相关的简历脱颖而出!这是一个深入研究和开展数据科学项目的绝佳机会。许多人突然有了他们之前没有预料到的空闲时间。为什么不利用这段时间来为梦想中的数据科学角色做好准备呢?
开源数据科学项目和想法在社区中并不缺乏。从计算机视觉和自然语言处理(NLP)项目到Python和数据工程想法,总有适合每个人的项目。唯一的问题是——应该从哪里开始?
这就是在本开源数据科学项目系列中试图回答的问题。这是系列的第27期,觉得它从未像今天这样相关。所以,请系好安全带,准备好编码环境,开始提升数据科学技能吧!
怎么可能不从这里开始呢?冠状病毒正在主导世界,无论转向哪个网站,COVID-19都在头条新闻中占据主导地位。幸运的是,全球许多研究实验室和组织一直在收集这方面的数据,并已经开源了。那么,为什么不利用数据科学知识和技能来解决社会福利问题呢?
在这里链接的GitHub仓库包含了跟踪全球受冠状病毒影响人数的时间序列数据,包括:
这个项目的每天都会更新数据集为CSV格式,所以今天就可以下载并开始分析!
还可以查看,其中包含了专门针对美国的冠状病毒病例数据集(按州和县细分)。
以下是一些帮助理解时间序列预测如何工作的资源:
自然语言处理(NLP)领域在过去3年里取得了巨大的进步。从2017年的开始,已经看到了包括、在内的一系列突破和开创性的NLP库。
这个GitHub仓库是为更广泛的数据科学专业人士总结的关键NLP论文的集合。以下是这个仓库涵盖的主题列表:
里面还有更多的NLP主题。这是一个在封锁期间消磨时间的好项目!选择一篇NLP论文,开始解析它。在一个伞下有大量的知识可用。
如果是NLP新手,建议浏览以下教程和资源:
自动化机器学习,或AutoML,旨在自动化典型机器学习流程中的某些任务。几年前作为一个节省时间的副项目开始,现在已经成为研究的完整领域。市场上有大量的AutoML工具可以为组织自动化整个ML流程。
AutoML尤其受到没有专门的数据科学团队或无法从头开始雇佣一个团队的企业的青睐。几乎每个科技巨头都有市场上的AutoML解决方案,从到。
这个由Google Brain团队提供的数据科学项目包含了一个与AutoML相关的模型和库的列表。自6天前开源以来,这个GitHub仓库已经获得了超过1600个星标。太棒了!
以下是一些应该查看的关于AutoML的关键文章和教程:
这是Google研究团队提供的另一个很棒的开源项目。这涉及到自然语言处理(NLP)领域和前面提到的。
Google研究团队对ELECTRA的定义如下:
"ELECTRA是一种新的自监督语言表示学习方法。它可以用来使用相对较少的计算资源预训练变换器网络。ELECTRA模型被训练以区分“真实”输入标记与由另一个神经网络生成的“假”输入标记。"
让印象深刻的是,即使在单个GPU上,也能实现的准确性。ELECTRA在大规模数据集上达到了一个全新的水平,并在SQuAD 2.0基准测试上实现了最先进的性能。
可以在中深入了解ELECTRA。团队目前已经发布了三个预训练模型:
在开始之前,需要确保机器上安装了以下要求:
Python 3
TensorFlow 1.15
NumPy
scikit-learn
和SciPy
可以通过以下教程了解什么是预训练模型和迁移学习:
GANs,或生成对抗网络,在2014年Ian Goodfellow引入它们时,震撼了数据科学界。从那时起,这些GANs已经演变成有用(并且经常是娱乐性的)应用,如生成艺术和创造电影。
训练GAN模型的一个重大问题是所需的巨大计算能力。这就是GAN压缩的用武之地。
GAN压缩是“一种压缩条件GAN的通用方法”。它减少了流行的基于GAN的模型的计算,如pix2pix、CycleGAN等。看看这个很棒的例子:
可以在这里了解更多关于GANs、它们的工作原理以及它们在现实世界中的应用:
很高兴在这篇文章中介绍另一个最先进的GAN架构。StyleGAN在计算机视觉社区中很受欢迎,而StyleGAN2将事情推向了更加真实的水平。