在数据分析领域,存在一些常见的误区,这些误区可能会导致错误的结论。本文旨在揭示这些误区,并提供相应的预防措施。以下是一些数据分析中常见的错误及其解决方案:
如果认为某个事件不代表正常结果,那么在分析中应该将其排除。例如,如果公司CEO的朋友或董事会成员通过产品投资了一大笔金额,那么应该从数据中移除这一数据点。通常用来识别异常值的方法是使用标准差的定义(2倍或3倍)。
# 假设产品销售额在100-10000卢比之间,有500个这样的案例,平均值为5000卢比。
# 如果有一个销售额为5亿卢比的案例,平均值突然变为10.5万卢比。
# 如果不是每个月都有这种销售额,可能会得出平均销售额下降的结论。
另一个例子说明了为什么仅看平均值可能会误导人:
为了避免因平均值而得出错误的推断,可以采取以下做法:
查看分布并从分析中排除任何异常值。
观察(平均值/中位数)的偏斜程度,以确定偏斜量来自较大或较小的值。值越高或越低(与1比较),偏斜程度越大。在高偏斜情况下,在做结论前应同时查看平均值和中位数。
文章开头的例子就是这种情况的完美例证。这种错误可能发生在不使用随机方式分配人群时。当这样做时,请确保人群在所有关键参数上都是相似的。
如何避免这种偏见/错误?
最好避免比较非随机分配的人群。如果由于物流和资源限制需要这样做,请在得出任何结论之前比较前后情况。
当想要为每个可能的数据段带来洞察时,就会发生这种情况。这样做,最终会得到人口少的段或集群,而这些读数可能在统计上不显著(或包含很多噪声)。
# 例如,如果想要为每个可能的数据段带来洞察,最终会得到人口少的段或集群,
# 而这些读数可能在统计上不显著(或包含很多噪声)。
如何避免基于薄弱数据进行推断?