那么,什么是大数据呢?大数据是太大、太复杂、太动态,以至于任何传统数据工具都无法捕获、存储、管理和分析的数据。传统工具是按照一定规模设计的。例如,当一个组织想要投资商业智能解决方案时,实施合作伙伴会进来,研究业务需求,然后创建一个解决方案来满足这些需求。如果这个组织的需求随着时间的推移而增加,或者它想要运行更细粒度的分析,它必须重新投资于数据基础设施。扩大资源的成本通常呈指数增长。此外,能够扩大的规模会有限制(例如机器的大小、CPU、RAM等)。这些传统系统无法支持一些互联网公司所需的规模。
大数据与传统数据有何不同?幸运的是或不幸的是,没有大小/参数截止点来决定数据是“大数据”还是不是。大数据通常基于所谓的3V特征来表征:体量——如今,有些组织每天产生数TB的数据。随着数据量的增加,如果想使用传统工具,将需要留下一些数据而不进行分析。随着数据量的进一步增加,将留下越来越多的数据而不进行分析。这意味着留下价值在桌面上。拥有关于客户正在做什么和说什么的所有信息,但无法理解!——这是一个明确的迹象,表明正在处理的数据比系统支持的要大。多样性——虽然体量只是一个开始,多样性是真正使传统工具难以应对的因素。传统工具最适合处理结构化数据。它们需要数据具有特定的结构和格式才能理解它。然而,从电子邮件、客户评论、社交媒体论坛、客户在网站上的旅程以及呼叫中心涌入的数据本质上是无结构的,或者最多是半结构化的。速度——数据生成的速度与其他两个因素一样关键。公司分析数据的速度最终将成为它们的竞争优势。正是它们的分析速度,使谷歌能够几乎实时预测流感患者的所在地。因此,如果无法以比数据流入更快的速度分析数据,可能需要一个大数据解决方案。