在当今的商业环境中,无论是财富500强企业还是初创公司,都在忙于积累海量数据。这些数据包括面向客户的数据(如鼠标点击、走进商店、货架上的产品可见性)和运营数据(如研发发现、销售互动、机械故障和产品缺货)。尽管大家都认同数据作为商业策略中的关键差异化因素和推动力的重要性,但很少有企业真正调整其数据实践以反映这一意图。数据收集的速度正在以光速前进,而数据管理需要迎头赶上。
组织收集数据的能力远远超过了它们分析这些数据的吞吐量。这一趋势是由廉价的数据存储和按需付费的云模型推动的,这些模型由第三方服务提供商托管和管理。这导致了大量的“暗数据”存在于组织内部。根据维基百科的引用,“暗数据是通过各种计算机网络操作获得的数据,但并未用于任何方式来获取洞察力或决策。”有时,组织甚至没有意识到这样的数据正在被收集。根据IBM的一项研究,大约90%由复杂的IT系统(传感器和遥测仪)生成的数据从未被利用。为了数据分析的光明未来,需要消除暗数据,为成本合理化和操作便利铺平道路。
尽管大数据和云技术的发展速度很快,IT系统需要跟上数据的扩展量、速度和多样性。通常,需要多种不同的技术和工具,如NoSQL数据库、Hadoop、Spark等,来管理不同利益相关者的期望——例如流数据、图形数据或非结构化数据。不同IT系统之间的数据集成和迁移是另一个挑战。一些IT平台没有或有限的内置数据迁移支持,或者这些系统的数据可能不同步。
随着大数据的出现,更大的审查权力随之而来。随着新的和广泛的数据隐私法律(例如GDPR)的出现,组织面临着法律和合规问题。虽然这是一个好的开始,但仍有一个非常显著的灰色地带。GDPR没有明确指出什么包括“个人数据”以及“合理”的保护水平是什么意思。数据的基本假设应该是更好地服务于消费者,因此,拥有敏感用户数据的面向消费者的业务,如个人和财务详细信息,需要重新思考这些数据将如何以及何时帮助,谁是数据的所有者,以及谁将是这些数据的最终用户。