数据可视化是一个跨学科领域,它使用图表、图形、地图等视觉元素和数据可视化工具来处理信息和数据的图形表示。这种方法提供了一种易于访问的方式来查看和理解数据,尤其是当数据以时间序列等形式出现时。通过将信息转化为视觉上下文,而不是深入研究Excel电子表格或报告,可以轻松地将大量复杂的数据可视化,这使得人脑更容易通过模式、趋势和大数据集中的异常值来处理信息。
尽管市场上有许多全面的工具和编程语言、库和包可用于数据可视化,但关于使用最佳和最高效工具的讨论从未停止。Tableau是市场上最常用的工具之一,而R语言则被认为是提供不同包和库进行数据可视化的最有帮助的编程语言之一。现在,让看看在R语言和Tableau之间,哪一个更好。
根据Gartner魔力象限对BI平台的评估,Tableau在今年二月被牢牢地定位在挑战者行列,而去年同时间它还处于与利基玩家的边界上。他们将雅虎、UPS和美国航空等公司列为客户,并与Teradata等BI/DW重量级公司达成了令人印象深刻的合作伙伴关系。2010年,他们降低了入门门槛,通过引入Tableau Public,使得学生和普通博客能够沉迷于他们的产品。
Tableau并不声称是数据收集和清洗的工具,所以让R语言承担了提取、清洗和塑造底层数据的重任(在Excel中对人口数据进行了一些初步查看,以了解正在处理的内容)。Google Refine是另一种选择,它提供了评估数据质量、转换数据和使用外部数据库(如Freebase)协调/扩充数据集的工具,这是一个很酷的功能。
但对最终的R代码的简单性感到满意,喜欢R语言能够让从头到尾完成整个过程——从提取CSV文件和请求地理编码到创建PNG文件。这是结果——干净且美观。
让继续讨论Tableau。不幸的是,Tableau Public只能在Windows上安装,但实际安装过程非常简单。当使用它来创建和导出这篇文章的图形时,连接到在线存储的时间较长(几十秒),但也许这就是受欢迎的代价。(看到他们计划在三月份进行服务器升级。)
喜欢Tableau,并且看到它在组织内部为半技术分析师和经理开放数据探索和可视化方面做得非常好。然而,发现创建图表的经验有点令人沮丧——“直观”的界面可以让快速上手,但仍然留下5%的问题需要解决。(怎样才能让图例看起来像这样,而不是那样?丢失的“德里”标签去哪了?)
下面的结果如果投入更多的时间会更漂亮,但已经干净、吸引人,并且可以在短时间内轻松制作。结论是:Tableau可以更快地完成可视化,特别是对于新手来说。(对不起,R语言,但入门曲线确实有点陡峭。)
当Tableau加载了需要的精确数据并且符合需求格式时,它表现得非常出色。然而,对数据探索体验并不感冒——一些自动默认设置,如维度/度量分类和自动求和或平均数值数据,让人感到困惑。
尽管如此,对底层数据集的支持印象深刻。一旦标记了两个变量“纬度”和“经度”,一些非常聪明的内部机制就提供了一个漂亮的小部件,提供土地覆盖和国家边界等映射覆盖。深入挖掘,发现了很多人口统计信息:年龄分布、平均家庭规模、人均收入分布——所有这些都可以通过点击按钮获得。缺点是,只能在美国境内的地点获得这些好东西(至少在即开即用的功能方面)。
在国家,只能获得一些较大的中心的城市名称和位置。所以想会用一个经过考验但准确的短语来总结——“因地制宜”。当在处理MBs的服务器日志文件,试图为客户的细分客户群提取可能不存在的使用模式时,会坚持使用R语言,并在数据量变大时由Python或Ruby进行预处理(如果数据量变得非常大,则使用其他工具)。