数据科学与机器学习资源精选

在数据科学的一些最佳应用中,不仅可以看到它们是如何编写的,还可以期待在不久的将来为这些代码库做出贡献。最近,GitHub被微软以数十亿美元的价格收购。GitHub一直是开发者之间协作的终极平台,也看到了数据科学和机器学习社区对它的同样热情。希望在微软的领导下这种热情能够持续下去。

至于Reddit,它仍然是数据科学家获取知识和意见的绝佳来源。人们分享他们的代码链接、其他人的代码、一般的数据科学新闻、寻求帮助和意见、发布研究论文等。这是一个真正强大的社区,继续为与数据科学爱好者互动提供坚实的平台。

在五月,看到了一些精彩的Reddit讨论,包括数据科学家在未来三年的角色,以及有史以来最好的机器学习论文的集合。在GitHub社区,英特尔开源了它的NLP架构库,微软推出了ML.NET以使.NET开发者能够进行机器学习等。

让深入列表,看看上个月GitHub上的顶级代码库和Reddit上的引人入胜的讨论。可以在下面查看从四月开始的过去四个月的顶级GitHub代码库和顶级Reddit讨论:

GitHub代码库

ML.NET是一个开源的机器学习框架,旨在使机器学习对.NET开发者更加易于接近。它使他们能够在.NET中开发自己的模型,而不需要先前在构建机器学习模型方面的经验。目前这是一个预览版本,包括基本的分类和回归算法。

ML.NET最初由微软创建,并已在其广泛的产品中使用,如Windows、Excel、Access、Bing等。这个版本还附带了用于各种模型训练任务的.NET API。

NLP Architect是一个开源的Python库,使数据科学家能够探索自然语言处理(NLP)和自然语言理解(NLU)领域中的最新深度学习技术。它由英特尔实验室的研究人员开发并开源。

最喜欢的这个库的组件之一是可视化组件,它以整洁有序的方式显示模型的注释。

这个Python包使能够从亚马逊搜索和提取产品信息。不需要编写多行代码来弄清楚需要分析哪些产品,只需使用这个包即可。只需要输入想搜索的关键词和最大产品数量(这个是可选的)。将得到CSV格式的输出,然后可以将其插入最喜欢的工具并开始分析。

Pigo是一个用Go语言开发的面部检测库。它基于“基于像素强度比较的对象检测”研究论文。根据代码库,这个库的一些关键特性包括:

  • 高处理速度
  • 检测前不需要图像预处理
  • 不需要计算积分图像、图像金字塔、HOG金字塔或任何其他类似的数据结构
  • 面部检测基于像素强度比较,编码在二进制文件dat树结构中

对于所有的强化学习(RL)爱好者来说,深度学习已经推动了RL编程,使AI能够以人类专家级别的技能玩Atari游戏。这个代码库涵盖了政策梯度算法的有趣新扩展,这是解决RL问题的最受欢迎的默认选择之一。这些扩展已经提高了训练时间以及强化学习的整体性能。

Reddit讨论

这个帖子在发布上述概念的视频后立即起飞。这是一个迷人的概念,看到它通过深度学习实现是很棒的事情。它吸引了数据科学家和机器学习爱好者的注意,可以通过帖子中的大量问题看出来。鼓励浏览它们全部,将对这项技术是如何实现的有一个非常好的想法。

如果是机器学习的新手,或者正在寻找论文来阅读或参考,这是一个宏伟的帖子。这个帖子中提到了一些优秀的机器学习研究论文,每个数据科学家,无论是有抱负的还是已经建立的,都将从中大大受益。

这个帖子包含了从高斯模型等基本机器学习概念到神经艺术风格转移、使用简单特征的增强级联进行快速目标检测等高级概念的论文。这本质上是一个必读的帖子。

深度学习中的泛化一直是一个持续讨论的话题。正如这篇帖子的提到的,仍然有很多场景很难实现任何泛化。

这导致了关于泛化当前状态的深入讨论,以及为什么在深度和强化学习中理解泛化如此困难。

这些讨论包括一些长篇帖子,如果对这个行业不熟悉,可能会有点复杂。然而,建议无论如何都要读一读,因为这些是一些非常有经验的和知识渊博的数据科学家的意见。

这个帖子深入探讨了机器学习在医疗保健行业(而不是研究领域)的当前状态。

这个行业的数据科学家分享了他们在工作中学到了什么,以及他们的看法。

每当有人问关于生命科学领域中的ML和DL时,参考这个帖子!

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485