数据被誉为新时代的石油,经常听到这样的比喻。但是,能否将数据以适当的格式呈现出来呢?在当今可用的数据量如此庞大的情况下,从数据中提取洞察比以往任何时候都更为重要。每天有数百种可视化图表被创造出来,有些受到观众的好评,而有些则被拒绝。这是为什么呢?答案就在于创造过程本身。让找出原因和问题,并看看如何解决它们。
在这里,将总结一些最好和最差的图表版本,这样就可以避免犯同样的错误。
图表的起点错误
在绘制图表时,发现最常见的错误之一就是不从0基线开始,而是使用一些随机值。正确的做法是使用正确的条形图。通常在数据可视化中使用水平或垂直条形图。有时,当使用简单的条形图进行比较时,它确实传达了信息,但是垂直的堆叠条形图或水平的堆叠条形图更好。让通过一个例子来看。
图表颜色的使用
在图表中使用多种颜色应该是有原因的。在图表中滥用颜色是让人反感的。通常,图表中只使用两种颜色。如果有超过两个图表,那么通过颜色来区分图表是一个好主意。让看看如何做到这一点。
数据强调
有时强调数据也会使图表看起来更好。在第一眼看去,就会知道C值在所有其他特征中是最高的。在这里,只有4个特征,所以图表中的这种小变化不会有太大效果。但是,当处理100个特征时,突出显示最高值的特征将对有很大帮助。
颜色选择的困惑
字体、颜色、轴等这些特征在绘制图表时都很重要。为图表选择颜色是一个非常关键的步骤,因为如果在图表中使用非常亮或非常浅的颜色,那么阅读图表将变得困难。
避免图表中的随机性
始终按照它们的值将条形按升序或降序排列。对于水平条形图,将最大值放在顶部;对于垂直条形图,将最大值放在左侧。这将帮助观众从图表中找到最高和最低的值。
讲述故事或至少回答一个问题
大多数初级数据可视化者只制作单一的图表,如直方图或条形图。有时,结合两个图表也有帮助。让看看如何做到这一点。可以在Kaggle和Notebook上找到数据。因此,制作了分析产品、商店和集群平均销售额的图表。可以制作不同的图表,如饼图和条形图,但将它们全部结合在一起,以便对分析有一个概览。在这里,可以清楚地看到商店A的销售额最高,经常购买的产品是杂货和饮料。