数据科学基础：五数概括

在深入机器学习模型或复杂建模技术之前，掌握统计学的基础知识至关重要。统计学在数据科学中主要分为两个领域——描述性统计和推断性统计。本文将探讨描述性统计中的一个基本概念：五数概括，这是在对数据进行任何转换之前，用于理解数据集的一个工具。

什么是五数概括

描述性统计涉及对数据的分布和特性的理解。五数概括是描述性统计的一部分，由五个值组成，这些值帮助描述数据。这五个值包括：

最小值（最低值）
第25百分位数或Q1
第50百分位数或Q2或中位数
第75百分位数或Q3
最大值（最高值）

如何计算五数概括

通过一个例子来理解这一点。假设有一组数据：11,23,32,26,16,19,30,14,16,10。首先，将数据点按升序排列，然后计算五数概括：10,11,14,16,16,19,23,26,30,32。

最小值：10

第25百分位数：14（计算方法：(25/100)*(n+1) = (25/100)*(11) = 2.75，即数据中的第3个值）

第50百分位数：17.5（计算方法：(16+19)/2 = 17.5）

第75百分位数：26（计算方法：(75/100)*(n+1) = (75/100)*(11) = 8.25，即数据中的第8个值）

最大值：32

五数概括在数据解释中的应用

现在，主要问题是五数概括值如何描述数据。让通过一个数据集来实际理解这一点。将使用著名的泰坦尼克号数据集的一个子集。

import pandas as pddata=pd.read_csv('titanic.csv')data=data[['Age','Fare','Survived']]print(data.head())

数据包含3列：年龄、票价和生存情况。年龄和票价是自变量，生存情况是因变量，其中1表示生存，0表示未生存。

使用Python中的describe()函数，可以看到数据的五数概括和其他详细信息。describe()函数为提供了特征的计数和均值，包括五数概括值。

data.describe()

从数据的角度理解五数概括值，并根据相同的数据描述数据：从票价列中，可以分析出第25百分位数是7.9，即8，这意味着25%的数据小于8。第75百分位数的值是31，意味着75%的数据低于31。

一个重要的注意事项是第75百分位数值和最大值之间的差异很大，这可以解释为票价特征高度偏斜，不遵循正态分布。这种差异也可以检测到异常值的存在。

另一个需要注意的是均值大于中位数（第50百分位数），即32大于14，所以分布向右偏斜。也可以使用Python中的skew()函数来检查偏斜值。

data.skew()

对年龄列的解释也是如此。最大值和第75百分位数值之间的差异不大，中位数和均值差不多，所以分布不是高度偏斜。

在Python中检查票价列的分布。可以从下面的图表中确认票价向右偏斜，也可以检测到异常值的存在。

import matplotlib.pyplot as pltplt.hist(data.Fare,bins=20)

现在检查年龄列的分布。可以从下面的图表中验证对年龄列的解释。

plt.hist(data.Age,bins=20);

箱线图的构建及其意义

箱线图是使用五数概括值对数据分布进行图形表示的一种方式。它是检测数据集中异常值的最有效方法之一。在统计学中，异常值是一个与其他观测值显著不同的数据点。异常值可能是由于测量的变异性或实验错误造成的；后者有时从数据集中排除。异常值可能会对统计分析造成严重问题。

绘制上述示例数据点（11,23,32,26,16,19,30,14,16,10）的箱线图，其中五数概括为：最小值：10，第25百分位数：14，第50百分位数：17.5，第75百分位数：26，最大值：32。

import seaborn as snssns.boxplot(data.Fare);

特征缩放的重要性及技术

本文探讨了特征缩放的重要性以及常用的特征缩放技术，包括绝对最大值缩放、最小-最大缩放、归一化、标准化和鲁棒缩放。

制药行业预测方法探讨

本文深入探讨了制药行业中广泛使用的预测方法，特别是针对新上市产品的预测技术。预测对于制药公司至关重要，因为它可以决定一个产品的市场表现。

数据科学基础：五数概括

目录

什么是五数概括

如何计算五数概括

五数概括在数据解释中的应用

箱线图的构建及其意义

特征缩放的重要性及技术

制药行业预测方法探讨

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

数据科学基础：五数概括

目录

什么是五数概括

如何计算五数概括

五数概括在数据解释中的应用

箱线图的构建及其意义

特征缩放的重要性及技术

制药行业预测方法探讨

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485