无论是数据科学爱好者,还是希望增强简历实力的数据科学家,或者是一名尚未涉足数据科学项目的初学者,本文都将为提供宝贵的资源。本文将介绍10多个提供各种机器学习或深度学习相关数据集的存储库或网站,不仅可以获取结构化数据,还可以获取非结构化数据,如图像、视频等。
本文旨在告诉如何获取各种机器学习或深度学习相关的数据集,以便能够开发机器学习模型,提升技能水平。这些网站提供的大多数数据都是免费的,可以通过阅读本文来了解这些平台上可用的数据集,从而为求职做好准备。
这些网站大多数情况下提供免费的数据,并且会在文章中提供这些网站的链接。请继续关注,阅读整篇文章,以提高对这些平台上可用数据集的了解,从而提升数据科学技能。
FiveThirtyEight是一个新闻和体育互动网站,拥有一些惊人的数据可视化。他们向公众开放了很多数据,这意味着可以下载并自行操作这些数据!FiveThirtyEight包括通用民意调查数据以及更具体的问题数据,例如“唐纳德·特朗普有多受欢迎?”等。他们将数据以CSV文件的形式在数据门户和GitHub上提供,使得获取民意调查和叙述性数据变得简单。
世界银行定期资助发展中国家的倡议,然后收集统计数据以跟踪它们的成功。可以直接查看世界银行的数据集,无需注册。数据集中有很多缺失的数字,获取数据可能需要多次点击。世界银行的发展数据组负责统计和数据活动,同时维护多个宏观、财务和行业数据库。
学术Torrents是一个致力于分发学术研究数据集的网站。它包含了大量有趣的数据集。可以在网站上浏览数据集,并在感兴趣的情况下下载它们!他们创建了一个分布式系统,用于交换大型数据集,旨在为研究人员服务。最终结果是一个可扩展、安全、容错的数据存储库,具有极快的下载速度。
亚马逊数据集中的所有数据都存储在亚马逊S3中,这是他们自己的云对象存储服务。因此,如果在AWS上构建机器学习模型并且需要亚马逊数据集,那么将能够非常快速地访问数据,因为亚马逊数据集和亚马逊SageMaker机器学习服务仅在AWS上可用。亚马逊数据集包含与卫星、图像、交通、经济等相关的数据。现在,只需要在搜索框中输入与特定数据集相关的搜索查询,将获得所需数据集的列表。
这是为各种数据构建的搜索引擎。谷歌在2018年推出了这项伟大的服务。可以通过名称搜索各种数据集。他们的目标是统一成千上万个不同的数据集存储库,并使这些数据对每个人都可发现。
这是一个包含各种开放数据集的存储库,其中包含与社会科学、计算机科学、物理学、信息科学、医疗保健、生物学等类型的数据。微软还与外部研究社区一起,在2018年推出了微软研究开放数据。它还提供了一些已在已发表的研究中使用过的精选数据集。在这里,也只需要在搜索框中输入与特定数据集相关的搜索查询,将获得所需数据集的列表。
Quandl包含了一些非常好的数据集,用于构建机器学习模型。根据Quandl的说法,他们的平台被世界上顶级对冲基金、资产管理公司和投资银行的分析师超过40万人使用。如果需要从POC的角度或可能是一个小项目快速构建机器学习模型并向业务用户展示结果,那么可以在这里找到已经清理过的财务和经济数据集。可以避免那些耗时的与数据清理相关的步骤,从这里获得清晰的数据,以满足需求。
也可以在Reddit上找到数据集。Reddit是一个流行的社交新闻网站,但它也有一个专门分享有趣数据集的部分。这些讨论板被称为subreddits或r/datasets,这是一个分享、查找和讨论数据集的地方。他们还有像r/DataIsBeautiful这样的subreddits,人们在这里讨论各种数据可视化以及如何根据需要应用它们。在subreddits下,还有r/LearnMachineLearning,可以在这里找到与机器学习和深度学习相关的数据集。
如果正在寻找免费的图像相关数据集,这是一个非常好的网站。如果正在处理图像处理、计算机视觉或深度学习,那么这可能是图像数据的圣杯。视觉数据包含了许多可以用来构建计算机视觉或深度学习相关模型的优秀数据集。可以使用计算机视觉主题,如图像描述、图像生成、语义分割等,搜索特定的数据集。实际上,还可以搜索解决方案,例如自动驾驶汽车。所以,如果想提高数据科学技能,这可能是首选之地。
这个网站提供了与机器人技术、语音识别、文本分类、图像处理等相关的数据集。如果需要各种数据来构建不同类型的机器学习模型甚至深度学习模型,那么可以尝试在这里搜索数据集。它基本上使用基于AI的神经机器翻译来提供300种语言的AI训练数据(NMT)。