数据分析基础与Python实践

数据分析是学习和深入机器学习算法之前必须掌握的重要部分,因为它是探索数据以获得更好理解的过程。数据分析是任何数据科学或机器学习项目的核心部分,几乎占据了整个项目生命周期的70%到80%的时间。数据分析是一个非常广泛的领域,包含了不同的技术和方法,如数据清洗、预处理、可视化、转换、编码等。本教程将学习基本的数据分析,这将增强对数据分析的信心,并帮助开始使用Python学习数据技术的旅程。

数据集概览

将使用一个简单的天气数据集,这是一个时间序列数据集,记录了2012年不同日期每小时的温度、湿度、风速等。数据集可以在Kaggle上简单地访问或下载。数据集包含8784行和8列,其中最后一列根据记录的不同气候条件说明天气状况。可以在下面的截图中观察数据集的基本概览。

加载数据集

有数据集,并打开Jupyter Notebook,或者也可以在Kaggle上创建一个笔记本。第一步是导入必要的库并将数据集加载到笔记本中。Pandas是Python中流行的数据预处理库,它帮助使用内置函数分析和操作数据。

import pandas as pdimport numpy as np# 加载数据data = pd.read_csv("/kaggle/input/weather-data-set-for-beginners/1. Weather Data.csv")data.head()

基本PythonPandas数据分析函数

1. 形状 - 形状是PythonPandas的属性或属性,存储行数和列数作为元组。如果在数据上使用形状属性,它将显示8784行和8列作为元组。

data.shape

2. 数据类型 - Pandas用于打印DataFrame中每列的数据类型,该属性也可以应用于单列。

3. 唯一 - 此函数显示给定列中所有唯一值的列表。

data['Weather'].unique()

4. n唯一 - 它是一个函数,显示数据框架中存在的几个唯一值。该函数可以应用于单列,也可以一次应用于完整数据。

data.nunique()

5. 计数 - 计数函数显示特定列中存在的非空值的总数。可以在完整数据和单列上使用该函数。

data.count()

6. 值计数 - 该函数显示任何列中所有唯一值的计数。一次只能对单列使用该函数。

data['Weather'].value_counts()

7. 信息 - 下面的功能用于获取有关数据集的基本信息。

data.info()

8. 描述 - 它是一个函数,结果为数据集中存在的数值变量的基本信息,如计数、最小值、最大值、标准差、平均值等。简而言之,描述函数用于获取数据的统计摘要。

data.describe()

数据分析的主要工作在这里,使用一些查询,必须找到给定问题的解决方案,将练习一些基本和重要的数据分析问题,包括过滤、聚合和检索数据。记住一点,解决问题有多种方法,根据简单性或性能,可以选择任何解决方案。

问题1) 查找所有天气完全晴朗的记录?

问题2) 查找风速恰好为4公里/小时的次数?

问题3) 检查数据集中是否有任何NULL值?

问题4) 将Weather列重命名为Weather_Condition?

问题5) 给定数据集的平均能见度是多少?

问题6) 查找风速大于24且能见度等于25的记录数?

问题7) 每种天气条件下每列的平均值是多少?

问题8) 查找所有天气晴朗且相对湿度大于50或能见度高于40的实例?

问题9) 查找包含雪的天气条件的数量?

数据分析是一个持续的过程,代表如何深入和更好地向客户展示分析,以便用于推动业务决策的洞察是可以理解的。让以本文学到的一些关键收获来结束本文。

使用逻辑运算符的数据分析根据某些条件过滤数据,并检索对定义条件为真的数据。

统计技术,如平均值、中位数、标准差和方差,代表了很多关于数据分布的信息。

始终使用最佳插补技术处理NULL值,如果数据集较小或数据集中有更多NULL值,尽量不要删除它们。

数据分析是一个持续的过程,涉及不同的技术,阅读本文后,建议阅读这篇文章,以继续数据分析之旅,并学习如何使用更好的可视化图表和图形分析数据,使数据分析和数据表示步骤变得简单和流畅。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485