数据叙事的艺术与实践

叙事艺术是印度伟大文化的一部分,从传奇的摩诃婆罗多时代到往世书和本生经寓言。故事一直是童年不可或缺的一部分,通过叙事艺术获得了最重要的道德和价值观。不管信不信,故事的力量可以在很少的篇幅中告诉很多。

企业家Leo Widrich在他的论文《叙事科学:大脑对倾听的反应》中解释说,倾听某事会激活大脑,并与故事的情节产生归属感。假设故事情节是“Sam在健身房再次推动自己”,这激活了听众的感觉皮层,从而带来更丰富的体验。当倾听故事时,会释放出皮质醇、多巴胺和催产素等化学物质。皮质醇有助于记忆故事的特定情节,而多巴胺是控制情感反应的,有助于长时间参与。催产素的释放对于维持更深入、丰富和有效的联系至关重要。

话虽如此,这种低调的叙事艺术与商业客户保留相关。结合数据的力量,叙事艺术可以彻底改变商业报告和仪表板的阅读方式。从市场营销到销售,从医疗保健和生命科学解决方案到颠覆旅游行业,数据故事正在弥补从老派的PowerPoint演示文稿到动态可视化仪表板的转变。但是,一个好、简洁的数据故事需要包含一些重要组成部分。

数据、叙事和视觉构成了数据叙事的基础。

数据清洗

这个第一步可能有点无聊,但同时也很重要。处理的数据大多数时候都充满了不需要、不必要的数据,如果忽视它们,可能会导致不满意的结果。这可能导致糟糕的市场营销和销售,最终导致低回报。这就是为什么数据清洗是一个关键步骤。话虽如此,以下是数据清洗中的6个重要步骤。

根据一些互联网报告,每天大约产生2-3万亿个数据片段。听起来很多,对吧?然而,这些数据是未结构化的,不适合首次使用。要让这些数据工作,需要让它们经历一些清洗。

Null值,即反映“NaN/null”的值被认为是空值。这些值与数据的重要性和它将要传达的价值无关。移除它们是必要的,因为它有助于保持数据的质量。可能替换这些空/NaN值,或者根据数据的可用性移除它们。

可能有两种类型的不必要数据——重复数据和冗余数据。就重复数据而言,它增加了整个数据集的冗余。就冗余数据而言,它要求对业务有深入的了解和关键利益相关者正在寻找的数据价值。

这涉及到处理语法错误、拼写错误和错误使用单词/约定。这听起来可能像是简单的英语,但想象一下它对全球主要用英语处理的庞大数据的影响。这一步包括根据约定重命名列,更改数据的类型,以及添加或删除不必要的字段和属性。这是一个强制性步骤,因为保持数据的语言完整有助于更好地设计和训练机器学习模型。

与空值不同,这一步针对没有值的字段,简单地说就是空白。为了用现有数据连接点,必须过滤掉缺失的数据,并为预处理做好准备。

异常值是远离其他数据设定的常规的值。这些值可能会使数据偏离方向或目的,并妨碍分析。寻找数据集中异常值最有效的方法之一是通过执行EDA,即探索性数据分析。然而,这并不意味着异常数据永远不应该被考虑。这取决于运行的分析和模型及其训练要求。

这是数据清洗过程的最后一步,在这里现在对数据的一致性、质量和完整性做出结论。

这个阶段大多涉及回答以下问题:

  • 清洗后的数据是否足够进行有效的分析或训练机器学习模型?
  • 数据在其结构上是否统一?
  • 数据集中是否仍然存在任何冗余数据?

这可能看起来是一个持久的过程,但对于任何组织和个人满意度来说,它值得投入的每一秒钟。一旦这些大块数据通过了这6个基本步骤,它们就准备好进行一些好的分析和漂亮的视觉呈现,让数据说话!

数据可视化

让用一些行业用来创建一些鼓舞人心和吸引人的数据故事的最突出的数据可视化工具让数据说话。这是整个数据叙事旅程中最重要的一步。虽然Python有一些高效的库,如Matplotlib和seaborn,用于可视化数据,但它们缺乏“仪表板体验”,这在商业决策中提供了优势。

一些著名的和高需求的工具填补了这个空白,为平滑、动态和实时的仪表板体验提供了优势,包括但不限于Tableau(由Salesforce提供支持)、Power BI(由Microsoft提供支持)、Data Studio(Google)、Qwiklabs、Looker等。虽然Tableau和Power BI是最受欢迎的数据可视化应用程序,但名单上的其他应用程序也表现不错。

然而,在开始设计仪表板之前,需要照顾到某些要点。

1. 再次审查数据:

不管数据清洗和建模技能有多好,再次审查数据总是一个好主意。这个阶段需要考虑的点是现有数据的相关性和冗余性。总是一个好主意将技术性强、难以阅读的属性修改为更易读、易懂的词语,使仪表板或报告更容易理解。

2. 让数据经历W-W-H方法:

制定精确和流畅的问题来回答数据应该回答的紧迫问题并从中获得洞察力至关重要。一个更简单的方法是W-W-H——什么-为什么-怎么办方法。这种方法可以很好地用于生产前和生产后的业务分析。

以Xyz制药公司为例,该公司正在研究开发新药。在这种情况下,研究的第一个主题应该了解当前市场、客户对各种制药品牌和现有药物的行为,以及其感兴趣的地理/地区当前的医疗保健状况。这是“什么”,方法的第一个组成部分。

在充分了解上述要点之后,就到了问“为什么要构建这个产品?”的阶段,这个方法的第二步,“为什么”从这个问题开始,为什么要构建或设计某物?清晰的目标可以帮助深入分析仪表板和报告。

最后是“怎么办”——这是方法中最关键、最有趣的部分。在上述研究和分析之后,可以继续从数据中获得一些最有力的洞察力。“怎么办”有助于获得详细的观点:

  • 产品在地理范围方面的潜力
  • 零售、数字和电子商务不断变化的动态
  • 当前市场竞争对手的表现比较等
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485