在寻找有趣的数据集以学习新知识的过程中,经过长时间的搜索,找到了一个关于澳大利亚鲨鱼袭击的数据集。这个数据集包含了1791年至2022年初的1100多起鲨鱼咬伤和未遂咬伤事件,由Taronga保护协会收集。
这个数据集包含了60列,如果详细说明每一列将会非常繁琐,并且并不需要所有列。这里将介绍12列的详细信息。如果想要了解所有列的信息,请访问。
在分析数据之前,进行了一些预处理。可以从的数据文件夹中下载原始数据和预处理后的数据。
在分析数据之前,让导入必要的库。
import pandas as pd
shark_data = pd.read_feather("Australian Shark Database.feather")
print(shark_data.head())
从上面的代码中,会注意到文件是feather格式的。feather格式在以下情况下非常有用:
如果有大量数据(比如5到6GB),那么尝试使用Apache Parquet。
数据包含1196行和12列。数据成功加载后,让看看数据的统计摘要。首先,看看数值列的统计摘要。
shark_data.describe()
从上面的结果中,可以很容易地看到:
shark_data_copy = shark_data.copy()
shark_data_copy['incident_year'] = shark_data_copy['incident_year'].astype('object')
shark_data_copy.describe(include='O')
从上面的结果中,可以观察到:
这里将看看鲨鱼袭击是否逐年增加。不需要表格中的所有年份来了解这一点。因此,选择了从1998年到2022年的数据计数,并绘制了一个图表。
# 绘制图表的代码
从上面的结果中,可以看到上升趋势,这表明鲨鱼袭击正在增加。下面是一个澳大利亚报纸的截图,其中也提到了这一事实。
之前,从统计推断中看到,大白鲨攻击了大多数受害者。让看看大多数袭击发生在哪里。
# 绘制条形图的代码
从上面的条形图中,可以看到大多数袭击发生在新南威尔士州。这种鲨鱼主要发现在澳大利亚的新南威尔士州。
现在让看看根据鲨鱼袭击案件数量,谁排在第二位和第三位。
# 绘制条形图的代码
从上面的条形图中,虎鲨和地毯鲨分别排在第二位和第三位。现在将看看这两种鲨鱼袭击受害者时的活动。
# 绘制图表的代码
从上面的图表中,注意到虎鲨袭击大多发生在受害者游泳或浮潜时。如果不知道什么是浮潜,这里是维基百科的定义。
地毯鲨袭击发生在受害者游泳、冲浪或潜水时。这些鲨鱼很有趣。如果第一眼看到这种鲨鱼,它看起来像一块地毯。下面是地毯鲨的图片。