数据分析常见误区及防范

在数据分析领域，存在一些常见的误区，这些误区可能会导致错误的结论。本文旨在揭示这些误区，并提供相应的预防措施。以下是一些数据分析中常见的错误及其解决方案：

如果认为某个事件不代表正常结果，那么在分析中应该将其排除。例如，如果公司CEO的朋友或董事会成员通过产品投资了一大笔金额，那么应该从数据中移除这一数据点。通常用来识别异常值的方法是使用标准差的定义（2倍或3倍）。

# 假设产品销售额在100-10000卢比之间，有500个这样的案例，平均值为5000卢比。
# 如果有一个销售额为5亿卢比的案例，平均值突然变为10.5万卢比。
# 如果不是每个月都有这种销售额，可能会得出平均销售额下降的结论。

另一个例子说明了为什么仅看平均值可能会误导人：

为了避免因平均值而得出错误的推断，可以采取以下做法：

查看分布并从分析中排除任何异常值。

观察（平均值/中位数）的偏斜程度，以确定偏斜量来自较大或较小的值。值越高或越低（与1比较），偏斜程度越大。在高偏斜情况下，在做结论前应同时查看平均值和中位数。

文章开头的例子就是这种情况的完美例证。这种错误可能发生在不使用随机方式分配人群时。当这样做时，请确保人群在所有关键参数上都是相似的。

如何避免这种偏见/错误？

最好避免比较非随机分配的人群。如果由于物流和资源限制需要这样做，请在得出任何结论之前比较前后情况。

当想要为每个可能的数据段带来洞察时，就会发生这种情况。这样做，最终会得到人口少的段或集群，而这些读数可能在统计上不显著（或包含很多噪声）。

# 例如，如果想要为每个可能的数据段带来洞察，最终会得到人口少的段或集群，
# 而这些读数可能在统计上不显著（或包含很多噪声）。

如何避免基于薄弱数据进行推断？