数据科学前沿动态与资源分享

在数据科学的浪潮中,不断探索最新的算法和框架。GitHub作为一个知识宝库,帮助紧跟数据科学的趋势话题。可以在这里查找并下载来自顶尖数据科学家和公司的代码。如果是数据科学爱好者、机器学习实践者、数据科学经理、深度学习专家,或者以上任何角色的混合体,本文将为提供价值。已经为挑选了顶级的数据科学GitHub仓库,本月的收藏特别强调了自然语言处理(NLP)的重要性。

此外,还为精选了五个深入的数据科学相关的Reddit讨论。Reddit让有机会深入了解数据科学专家的思维过程。强烈推荐阅读这些讨论,以提升知识和行业理解。

想要查看2019年前三个月的顶级仓库吗?为准备好了:一月、二月、三月。让开始吧!

数据科学GitHub仓库

今年对于OpenAI的NLP研究来说是一个重要的年份。他们通过二月份发布的GPT-2吸引了注意(稍后会有更多介绍),现在又推出了一个建立在流行的Transformer架构之上的NLP框架。Sparse Transformer是一个深度神经网络,可以预测序列中的下一个项目,包括文本、图像甚至音频!初步结果已经打破了记录。该算法使用注意力机制(在深度学习中非常流行)来提取比以往长30倍的序列中的模式。

这个仓库包含了Sparse Transformer框架的稀疏注意力组件。可以克隆或下载这个仓库,并立即开始处理NLP序列预测问题。确保使用Google Colab和他们提供的免费GPU。

更多关于Sparse Transformer的信息,可以查看以下链接:OpenAI的博客文章、研究论文。

OpenAI的GPT-2。从未见过如此多的炒作围绕着一个数据科学库的发布。他们只发布了他们原始模型的一小部分(因为担心恶意滥用),但即使是这个迷版本的算法也向展示了GPT-2在NLP任务上的强大。

有许多尝试复制GPT-2的方法,但大多数都过于复杂或冗长。这就是为什么这个仓库吸引了注意。这是一个简单的Python包,允许重新训练GPT-2的文本生成模型在任何未见过的文本上。检查以下使用gpt2.generate()命令生成的文本。

可以直接通过pip安装gpt-2-simple(还需要安装TensorFlow):pip3 install gpt_2_simple

NeuronBlocks是微软开发的一个NLP工具包,帮助数据科学团队构建神经网络的端到端流水线。NeuronBlocks的理念是降低为NLP任务构建深度神经网络模型的成本。

NeuronBlocks由两个主要组件组成(参考上面的图片):BlockZoo包含流行的神经网络组件;ModelZoo是一个用于执行各种任务的NLP模型套件。

知道应用深度学习解决方案的成本有多高。所以一定要查看NeuronBlocks,看看它是否适合或组织。

完整的NeuronBlocks论文可以在这里阅读。

CenterNet是一种对象检测方法。通常,检测算法将对象识别为给定图像中的轴对齐框。这些方法查看多个对象点和位置并进行分类。听起来很公平——这就是每个人的做法,对吧?

然而,这种方法,称为CenterNet,将对象建模为一个点。基本上,它使用关键点估计来识别任何边界框的中心点。CenterNet已被证明比熟悉的边界框技术更快、更准确。

下次在处理对象检测问题时,尝试使用它——会喜欢的!可以在这里阅读解释CenterNet的论文。

BentoML是一个Python库,帮助打包和部署机器学习模型。可以在大约5分钟内将模型从笔记本转移到生产API服务。

BentoML服务可以轻松地与最喜欢的平台一起部署,如Kubernetes、Docker、Airflow、AWS、Azure等。

这是一个灵活的库。它支持流行的框架,如TensorFlow、PyTorch、Sci-kit Learn、XGBoost等。甚至可以使用BentoML部署自定义框架。听起来是一个不容错过的好机会!

这个GitHub仓库包含了让开始的代码,以及安装说明和一些示例。

数据科学Reddit讨论

工具如Tableau和Alteryx在数据科学组织中扮演什么角色?是否在商业智能/管理信息系统/报告角色中工作?是否经常使用像Tableau、Alteryx、Power BI这样的拖放工具?如果正在阅读这篇文章,假设对转向数据科学感兴趣。

这个讨论线程由一位略显沮丧的数据分析师发起,深入探讨了数据分析师在数据科学项目中可以扮演的角色。讨论集中在数据分析师/BI专业人员需要学习的技能,以便有机会转向数据科学。

提示:学习如何编写良好的代码是#1建议。

另外,查看全面且充满示例的文章,关于应该如何遵循11个步骤转向数据科学。

从硕士学位到行业的转变中学到的教训。招聘数据科学经理最大的抱怨是候选人缺乏行业经验。对于大多数数据科学爱好者来说,弥合学术界和行业之间的差距已经被证明是难以捉摸的。MOOCs、书籍、文章——这些都是知识的优秀来源——但它们不提供行业曝光。

这个讨论从帖子开始,对来说是宝贵的资料。喜欢发布了他面试经历的详尽描述。评论包括针对性的问题,探讨了更多关于这种转变的信息。

当ML和数据科学是好公司的死亡时:一个警示故事。现在的共识是可以利用机器学习和人工智能来提高组织的底线。这就是管理层向领导层提供的内容,这带来了投资。

但是当管理层不知道如何构建AI和ML解决方案时,会发生什么?并且没有在考虑机器学习之前投资建立基础设施?

这部分在讨论中经常被忽视,并且经常对公司是致命的。这个讨论是关于一个公司,使用旧的编程语言和工具,突然决定用华丽的数据科学脚本和工具替换其旧架构。一个警示故事,进入这个行业时应该注意。

否已经达到了深度强化学习的极限?最近在多个论坛上看到这个问题。这是一个可以理解的想法。除了科技巨头每隔几个月的几次突破外,在深度强化学习方面没有看到很多进展。

但这是真的吗?这真的是极限吗?才刚刚开始触及表面,已经完成了吗?大多数人相信还有更多的事情要做。

这个讨论在技术方面和整体大局之间击中了正确的点。可以将这个讨论中学到的教训应用到深度学习上。当谈话转向深度神经网络时,会看到相似之处。

数据科学家每天都在做什么?是否想知道数据科学家大部分时间都在做什么?大多数有抱负的专业人士认为他们会一个接一个地构建模型。这是一个需要不惜一切代价避免的陷阱。

喜欢这个讨论中的第一个评论。这个人将数据科学家比作律师。也就是说,根据所在的领域,有不同类型的角色。所以这个问题没有直接的答案。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485