数据科学前沿动态与资源分享

在数据科学的浪潮中，不断探索最新的算法和框架。GitHub作为一个知识宝库，帮助紧跟数据科学的趋势话题。可以在这里查找并下载来自顶尖数据科学家和公司的代码。如果是数据科学爱好者、机器学习实践者、数据科学经理、深度学习专家，或者以上任何角色的混合体，本文将为提供价值。已经为挑选了顶级的数据科学GitHub仓库，本月的收藏特别强调了自然语言处理（NLP）的重要性。

此外，还为精选了五个深入的数据科学相关的Reddit讨论。Reddit让有机会深入了解数据科学专家的思维过程。强烈推荐阅读这些讨论，以提升知识和行业理解。

想要查看2019年前三个月的顶级仓库吗？为准备好了：一月、二月、三月。让开始吧！

数据科学GitHub仓库

今年对于OpenAI的NLP研究来说是一个重要的年份。他们通过二月份发布的GPT-2吸引了注意（稍后会有更多介绍），现在又推出了一个建立在流行的Transformer架构之上的NLP框架。Sparse Transformer是一个深度神经网络，可以预测序列中的下一个项目，包括文本、图像甚至音频！初步结果已经打破了记录。该算法使用注意力机制（在深度学习中非常流行）来提取比以往长30倍的序列中的模式。

这个仓库包含了Sparse Transformer框架的稀疏注意力组件。可以克隆或下载这个仓库，并立即开始处理NLP序列预测问题。确保使用Google Colab和他们提供的免费GPU。

更多关于Sparse Transformer的信息，可以查看以下链接：OpenAI的博客文章、研究论文。

OpenAI的GPT-2。从未见过如此多的炒作围绕着一个数据科学库的发布。他们只发布了他们原始模型的一小部分（因为担心恶意滥用），但即使是这个迷版本的算法也向展示了GPT-2在NLP任务上的强大。

有许多尝试复制GPT-2的方法，但大多数都过于复杂或冗长。这就是为什么这个仓库吸引了注意。这是一个简单的Python包，允许重新训练GPT-2的文本生成模型在任何未见过的文本上。检查以下使用gpt2.generate()命令生成的文本。

可以直接通过pip安装gpt-2-simple（还需要安装TensorFlow）：pip3 install gpt_2_simple。

NeuronBlocks是微软开发的一个NLP工具包，帮助数据科学团队构建神经网络的端到端流水线。NeuronBlocks的理念是降低为NLP任务构建深度神经网络模型的成本。

NeuronBlocks由两个主要组件组成（参考上面的图片）：BlockZoo包含流行的神经网络组件；ModelZoo是一个用于执行各种任务的NLP模型套件。

知道应用深度学习解决方案的成本有多高。所以一定要查看NeuronBlocks，看看它是否适合或组织。

完整的NeuronBlocks论文可以在这里阅读。

CenterNet是一种对象检测方法。通常，检测算法将对象识别为给定图像中的轴对齐框。这些方法查看多个对象点和位置并进行分类。听起来很公平——这就是每个人的做法，对吧？

然而，这种方法，称为CenterNet，将对象建模为一个点。基本上，它使用关键点估计来识别任何边界框的中心点。CenterNet已被证明比熟悉的边界框技术更快、更准确。

下次在处理对象检测问题时，尝试使用它——会喜欢的！可以在这里阅读解释CenterNet的论文。

BentoML是一个Python库，帮助打包和部署机器学习模型。可以在大约5分钟内将模型从笔记本转移到生产API服务。

BentoML服务可以轻松地与最喜欢的平台一起部署，如Kubernetes、Docker、Airflow、AWS、Azure等。

这是一个灵活的库。它支持流行的框架，如TensorFlow、PyTorch、Sci-kit Learn、XGBoost等。甚至可以使用BentoML部署自定义框架。听起来是一个不容错过的好机会！

这个GitHub仓库包含了让开始的代码，以及安装说明和一些示例。

数据科学Reddit讨论

工具如Tableau和Alteryx在数据科学组织中扮演什么角色？是否在商业智能/管理信息系统/报告角色中工作？是否经常使用像Tableau、Alteryx、Power BI这样的拖放工具？如果正在阅读这篇文章，假设对转向数据科学感兴趣。

这个讨论线程由一位略显沮丧的数据分析师发起，深入探讨了数据分析师在数据科学项目中可以扮演的角色。讨论集中在数据分析师/BI专业人员需要学习的技能，以便有机会转向数据科学。

提示：学习如何编写良好的代码是#1建议。

另外，查看全面且充满示例的文章，关于应该如何遵循11个步骤转向数据科学。

从硕士学位到行业的转变中学到的教训。招聘数据科学经理最大的抱怨是候选人缺乏行业经验。对于大多数数据科学爱好者来说，弥合学术界和行业之间的差距已经被证明是难以捉摸的。MOOCs、书籍、文章——这些都是知识的优秀来源——但它们不提供行业曝光。

这个讨论从帖子开始，对来说是宝贵的资料。喜欢发布了他面试经历的详尽描述。评论包括针对性的问题，探讨了更多关于这种转变的信息。

当ML和数据科学是好公司的死亡时：一个警示故事。现在的共识是可以利用机器学习和人工智能来提高组织的底线。这就是管理层向领导层提供的内容，这带来了投资。

但是当管理层不知道如何构建AI和ML解决方案时，会发生什么？并且没有在考虑机器学习之前投资建立基础设施？

这部分在讨论中经常被忽视，并且经常对公司是致命的。这个讨论是关于一个公司，使用旧的编程语言和工具，突然决定用华丽的数据科学脚本和工具替换其旧架构。一个警示故事，进入这个行业时应该注意。

否已经达到了深度强化学习的极限？最近在多个论坛上看到这个问题。这是一个可以理解的想法。除了科技巨头每隔几个月的几次突破外，在深度强化学习方面没有看到很多进展。

但这是真的吗？这真的是极限吗？才刚刚开始触及表面，已经完成了吗？大多数人相信还有更多的事情要做。

这个讨论在技术方面和整体大局之间击中了正确的点。可以将这个讨论中学到的教训应用到深度学习上。当谈话转向深度神经网络时，会看到相似之处。

数据科学家每天都在做什么？是否想知道数据科学家大部分时间都在做什么？大多数有抱负的专业人士认为他们会一个接一个地构建模型。这是一个需要不惜一切代价避免的陷阱。

喜欢这个讨论中的第一个评论。这个人将数据科学家比作律师。也就是说，根据所在的领域，有不同类型的角色。所以这个问题没有直接的答案。

生成对抗网络（GANs）的应用

本文介绍了生成对抗网络（GANs）的基本概念及其在图像编辑、安全性、数据生成和3D对象生成等领域的应用。

利用Python和Selenium进行YouTube视频分类

本文介绍了如何使用Python和Selenium从YouTube抓取视频数据，并使用机器学习技术对视频进行分类。

数据科学前沿动态与资源分享

数据科学GitHub仓库

数据科学Reddit讨论

生成对抗网络（GANs）的应用

利用Python和Selenium进行YouTube视频分类

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379

数据科学前沿动态与资源分享

数据科学GitHub仓库

数据科学Reddit讨论

生成对抗网络（GANs）的应用

利用Python和Selenium进行YouTube视频分类

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：15216758379

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379