统计学中的68-95-99.7%经验法则

在统计学领域，68-95-99.7%规则，也称为经验法则，是一个基于正态分布的强大工具，它允许在不了解数据细节的情况下对数据分布做出推断。但在深入探讨这一概念之前，需要先理解一些基本的统计学术语，如数据分布、均值、方差、概率密度函数（PDF）和累积分布函数（CDF）等。

数据分布的基本概念

数据分布是概率论和统计学中的核心概念之一。它揭示了随机数据的性质，展示了数据在随机变量的最小值和最大值（称为范围）之间的分布情况。数据分布实际上是统计函数，为提供了关于数据的重要直觉，并给出了对决策至关重要的各种值。简而言之，概率分布是一个统计函数，它提供了随机变量可能包含的所有信息和值。数据的分布包含一个范围，统计分布函数在该范围内产生结果，范围就是随机变量可能具有的最小值和最大值。

以人类身高为例，如果测量50个随机个体的身高，会发现这些身高遵循某种分布。如果想要了解人类身高的信息，就会使用概率分布。

为什么在概率论和统计学中使用分布

使用这些分布在概率论和统计学中的原因很简单，想要回答关于数据或随机变量的各种问题。概率论和统计学的强大之处在于，它们能够通过一些简单的计算来回答问题。统计学和概率论使能够在不直接查看数据的情况下了解数据。因此，概率论和统计学提供了各种类型的分布，如高斯（即正态）、伯努利、二项式、对数正态、泊松分布等。如果只知道数据或随机变量遵循概率论和统计学中的任何一种分布，就可以回答大量与数据相关的问题，这就是在概率论和统计学中使用分布的原因。

均值、方差、PDF和CDF

在开始学习经验法则之前，需要理解均值、方差、PDF和CDF的概念，因为不了解这些术语就无法想象分布。

均值是所有数据点的平均值。通过将所有数据点的总和除以数据点的数量来计算均值，用符号μ表示。均值给出了数据点的中心趋势。均值的计算公式如下：

μ = (Σxᵢ) / n

其中，xᵢ是随机变量X中的每个数据点，n是数据点的数量。

方差是每个数据点与均值之间平方距离的平均值。方差告诉分布的离散程度，换句话说，方差告诉数据点与均值之间的距离有多远。方差用符号σ²表示。方差的计算公式如下：

σ² = Σ(xᵢ - μ)² / n

如果对方差σ²取平方根，就得到了标准差，用符号σ表示。

PDF是直方图的平滑形式，它定义了随机变量特定值上的数据点密度。换句话说，PDF是给定数据范围内数据点密度的度量。

累积分布函数是描述随机变量的方法。这个函数显示了0到给定点之间数据点的百分比。换句话说，它告诉给定数据点在数据100%分布上的位置。CDF的值总是在0到1之间。如果在x轴上画一条垂直线，那么在图上的某处会有一个点切割CDF函数，如果垂直地将CDF的交点连接到y轴，那么就能找到x轴上数据点在y轴上的概率。例如，如果x轴上的值是1.5，那么按照上述方法画垂直线，将发现分布中值小于或等于1.5的点占60%。

68-95-99.7%经验法则

在正态或高斯分布下看到这条规则。当数据或随机变量遵循正态分布时，可以将这个规则应用于数据。让了解一下高斯分布。

高斯分布是对称分布。这意味着如果画出正态分布的概率密度函数（PDF），那么均值两侧的PDF将是彼此的镜像。高斯分布的PDF是一个对称的钟形曲线。

P[μ – σ ≤ X ≤ μ + σ] ≈ 68%
P[μ – 2σ ≤ X ≤ μ + 2σ] ≈ 95%
P[μ – 3σ ≤ X ≤ μ + 3σ] ≈ 99.8%

Pandas数据分析与可视化实战

本文介绍了如何使用Pandas库进行数据加载、处理、转换、分析和可视化，并通过Reddit帖子数据集进行实战演示。

PandasGUI库详解

本文详细介绍了PandasGUI库，这是一个基于Python的库，通过图形用户界面(GUI)实现数据操作和统计分析。

统计学中的68-95-99.7%经验法则

数据分布的基本概念

为什么在概率论和统计学中使用分布

均值、方差、PDF和CDF

68-95-99.7%经验法则

Pandas数据分析与可视化实战

PandasGUI库详解

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

统计学中的68-95-99.7%经验法则

数据分布的基本概念

为什么在概率论和统计学中使用分布

均值、方差、PDF和CDF

68-95-99.7%经验法则

Pandas数据分析与可视化实战

PandasGUI库详解

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485