很多互联网都在谈大数据,到底什么是大数据?
大数据是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
在谈论什么是大数据之前,不妨先看看大数据四个特征。一是数据体量巨大(Volume),这个很容易理解,最初个人电脑软盘或硬盘容量以KB或MB为单位,现在则以GB和TB为单位,数据容量提高了一千倍至十亿倍。二是数据类型繁多(Variety),最初数据以文字或结构化数据库的形式存储,现在音频、视频、图片等被广泛应用,非结构化数据越来越多。三是价值密度低(Value),价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。四是处理速度快(Velocity),这是大数据区分于传统数据挖掘的最显著特征,大容量、低密度数据必然要求高速处理以提取有用的信息。
由于互联网公司往往储存有大量的用户网购、用户出行、用户搜索、用户浏览等信息,通过对这些信息快速处理和聚合分析,能够判断用户未来几天甚至未来几个月的可能行为,为互联网公司提供智能化推荐、供应链管理、价格优化、欺诈行为判断等更优的服务。在利用大数据时候,除了前面所述的四个特征外,数据还必须具有关联性:数据来自同一类型人物、数据来自同一时间段、数据来自同一个产品等等。