澳大利亚鲨鱼袭击数据分析

在寻找有趣的数据集以学习新知识的过程中,经过长时间的搜索,找到了一个关于澳大利亚鲨鱼袭击的数据集。这个数据集包含了1791年至2022年初的1100多起鲨鱼咬伤和未遂咬伤事件,由Taronga保护协会收集。

数据集概览

这个数据集包含了60列,如果详细说明每一列将会非常繁琐,并且并不需要所有列。这里将介绍12列的详细信息。如果想要了解所有列的信息,请访问。

在分析数据之前,进行了一些预处理。可以从的数据文件夹中下载原始数据和预处理后的数据。

数据分析

在分析数据之前,让导入必要的库。

import pandas as pd shark_data = pd.read_feather("Australian Shark Database.feather") print(shark_data.head())

从上面的代码中,会注意到文件是feather格式的。feather格式在以下情况下非常有用:

  • 当想要更快地读取数据时。
  • 当不需要对数据进行任何修改,只需要压缩时。
  • 机器只读取Feather格式的文件。有时需要更快地加载大量数据。当文件大小较大时,csv格式的加载时间会增加。将csv文件转换为feather文件可以帮助减少文件大小,并且数据文件的加载时间会大幅减少。

如果有大量数据(比如5到6GB),那么尝试使用Apache Parquet。

统计摘要

数据包含1196行和12列。数据成功加载后,让看看数据的统计摘要。首先,看看数值列的统计摘要。

shark_data.describe()

从上面的结果中,可以很容易地看到:

  • 受害者的平均年龄是28岁,最大年龄是84岁。认为大多数鲨鱼袭击发生在最年长的渔民身上。稍后将验证这一事实。
  • 受害者的最小年龄是0岁,这是一个空值或错误。
  • 对于incident_year列,统计摘要没有意义。需要将该列转换为分类数据,然后查看该列的统计摘要。
shark_data_copy = shark_data.copy() shark_data_copy['incident_year'] = shark_data_copy['incident_year'].astype('object') shark_data_copy.describe(include='O')

从上面的结果中,可以观察到:

  • 最多的事件发生在1月。
  • 鲨鱼事件大多记录在2020年。
  • 1196人中有722人在鲨鱼袭击中受伤。
  • 大多数鲨鱼袭击报告来自澳大利亚的新南威尔士州。
  • 大多数袭击是由大白鲨造成的。如果在互联网上搜索,会发现大白鲨负责迄今为止记录在案的鲨鱼咬人事件中最大的数量。下面是一个证明这一说法的图片。
  • 大多数鲨鱼袭击是无端的,发生在游泳时。
  • 大多数受害者是男性,他们大多在腿部受伤。

澳大利亚鲨鱼袭击事件是否逐年增加?

这里将看看鲨鱼袭击是否逐年增加。不需要表格中的所有年份来了解这一点。因此,选择了从1998年到2022年的数据计数,并绘制了一个图表。

# 绘制图表的代码

从上面的结果中,可以看到上升趋势,这表明鲨鱼袭击正在增加。下面是一个澳大利亚报纸的截图,其中也提到了这一事实。

大白鲨袭击

之前,从统计推断中看到,大白鲨攻击了大多数受害者。让看看大多数袭击发生在哪里。

# 绘制条形图的代码

从上面的条形图中,可以看到大多数袭击发生在新南威尔士州。这种鲨鱼主要发现在澳大利亚的新南威尔士州。

现在让看看根据鲨鱼袭击案件数量,谁排在第二位和第三位。

# 绘制条形图的代码

从上面的条形图中,虎鲨和地毯鲨分别排在第二位和第三位。现在将看看这两种鲨鱼袭击受害者时的活动。

# 绘制图表的代码

从上面的图表中,注意到虎鲨袭击大多发生在受害者游泳或浮潜时。如果不知道什么是浮潜,这里是维基百科的定义。

地毯鲨袭击发生在受害者游泳、冲浪或潜水时。这些鲨鱼很有趣。如果第一眼看到这种鲨鱼,它看起来像一块地毯。下面是地毯鲨的图片。

  • 使用Pandas读取feather文件以及何时使用它。
  • 使用seaborn和matplotlib绘制不同的图表。
  • 根据需要修改数据。
  • 自定义不同的图表。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485