Kaggle数据科学社区指南

Kaggle是一个汇集了众多数据科学专业人士和实践者的在线社区,他们在这里交流和分享知识。无论是初学者还是专家,Kaggle都可能在数据科学之旅中发挥作用。Kaggle成立于2010年,最初是一个主办机器学习竞赛的平台,后来被谷歌收购。

使用Kaggle可以为用户提供多种功能。用户可以通过参加竞赛来展示自己的技能,这不仅能够提升能力,还有机会获得奖金。Kaggle还设有多个基于不同主题的论坛,聚集了来自全球的高素质和友善的人士。除此之外,可以在平台上学习编程和解决各种问题。Kaggle之所以广为人知,其中一个主要原因是它托管的开源数据集的数量和多样性。最棒的是,如果数据集具有一定的分析或模型训练价值,也可以在Kaggle上托管自己的数据集。

1. 首先,访问Kaggle网站,将进入Kaggle的主页。

2. 使用所需的凭据注册或登录。

3. 然后从左侧面板选择“数据”选项,将进入数据集页面。

4. 现在从各种领域中选择最适合需求的数据集,并按下“下载”按钮。

如果不确定或对应该选择哪个数据集感到困惑,Kaggle也为提供了帮助。Kaggle根据观众的兴趣更新了多个数据集列表。例如,当访问Kaggle数据集页面时,会发现多个数据集列表,如“趋势数据集”、“热门数据集”、与“商业”相关的数据集、与“COVID”相关的数据集等。

除此之外,如果对想要的数据集有特定的需求,总是可以使用“过滤器”并选择文件类型和期望的数据集文件大小。

现在,让看看下载Kaggle数据集的新方法。开始之前,需要确保系统中已安装了opendatasets库。如果系统中没有这个库,可以使用Python的包管理器pip,在Jupyter Notebook单元格中运行以下命令:

!pip install opendatasets

Python的opendatasets库用于从Kaggle等平台下载开放数据集。下载过程如下:

1. 导入opendatasets库

import opendatasets as od

2. 现在使用opendatasets库的download函数,顾名思义,它用于下载数据集。它接受数据集的链接作为参数。

例如,如果选择了“心脏病发作分析与预测数据集”进行下载。将选择它的超链接。现在,这个超链接被用作.download()函数的参数。

od.download("https://www.kaggle.com/rashikrahmanpritom/heart-attack-analysis-prediction-dataset")

3. 执行上述行后,它会提示输入Kaggle用户名。Kaggle用户名可以从“个人资料”部分的“账户”标签中获取。

4. 输入用户名后,它会提示输入Kaggle密钥。再次前往账户标签的“个人资料”部分,点击“创建新的API令牌”。这将下载一个kaggle.json文件。

5. 打开这个文件后,将找到username和key。复制密钥并粘贴到提示的Jupyter Notebook单元格中。下载的文件内容如下所示:

{ "username": "", "key": "" }

6. 如果数据集下载完成,将显示进度条。

7. 下载成功后,将在Jupyter Notebook的当前工作目录中创建一个文件夹。这个文件夹包含数据集。

Jupyter Notebook应该看起来像这样:

(此处应有Jupyter Notebook执行代码后的截图,但由于是文本格式,无法显示)

注意:记住,不需要每次想要下载数据集时都从Kaggle创建一个新的API令牌。可以使用相同的密钥进行每次下载。

Kaggle数据集页面

数据集在实现机器学习领域更高成就的过程中扮演着至关重要的角色。因此,必须知道每一种可能的方式来获取数据集。Kaggle是下载数据集最广泛使用的平台之一。因此,可以获得由领域专家上传的大量数据集。

除了标题之外,Kaggle上的每个数据集都有更多的属性,如可用性评分、发布者、大小和数据集格式。当打开一个数据集时,将发现这些细节。可用性评分由某些参数给出。对于这个评分,没有提到什么范围的评分是好的可用性评分,但总是从高可用性评分的数据集开始是好的。每个数据集还显示要下载的数据集的大小。较大的文件大小将需要更多的时间加载到数据框中。例如,流行的数据集“美国事故”大约有420万行,文件大小约为300MB。因此,它将需要不同的时间加载到数据框中。它还显示数据所在的文件格式。了解数据集的这些细节也是有益的。

心脏病发作分析与预测数据集。注意讨论的细节。(此处应有个人电脑的截图,但由于是文本格式,无法显示)

可以在每个数据集页面的代码部分练习和分享发现。将在每个数据集页面上发现Kaggle成员提交的多个提交。此外,数据集的发布者可以发布任何任务,可以朝着这个目标努力。由于机器学习中的任何问题都没有单一的解决方案,所以总是看看和学习别人的解决方案是好的。这可能会帮助在下一个项目中。例如,“COVID-19开放研究数据集挑战”数据集的文件大小为9GB,代码提交超过1500次。

为需求选择完美的数据需要时间。可能发生多次,可能下载了一个不符合需求准备的数据集。因此,总是读一读数据集描述,了解它提供了什么总是好的。例如,如果想分析基于全球COVID-19疫苗接种计划的数据集,将发现大量满足兴趣的此类数据集。在这种情况下,总是有帮助的读一读并为选择完美的数据集。

除此之外,Kaggle还提供免费课程来提高数据科学技能,如Python、数据清洗、数据可视化等。还将获得成功完成课程的完成证书。

因此,opendatasets对于旨在在该领域取得卓越成就的从业者来说是一个福音。数据集是每个数据科学项目的重要组成部分。每一点分析都从数据开始。在Python中执行任务可以尽可能高效地完成。当涉及到下载数据集时,最终任务是以尽可能少的努力获得数据集。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485