大数据技术的意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。而事实上也是如此,数据已经越来越重要,甚至可以说已经成为一种关键的商业资源。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理,分布式数据库和云存储、虚拟化技术。
随着云时代的来临,大数据也吸引了越来越多的关注。有学者认为,大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要向数十、数百或甚至数千台的计算机分配工作。
大数据需要特殊的技术,以有效地处理大量的互不关联和离散的数据。适用于大数据的技术,包括大规模并行处理数据库,数据挖掘,分布式文件系统,分布式数据库,云计算平台,互联网和可扩展的存储系统。
大数据的基本特征:
容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
种类(Variety):数据类型的多样性和非结构性;
速度(Velocity):数据增长的速度非常快;
可变性(Variability):妨碍了处理和有效地管理数据的过程。
真实性(Veracity):如何甄别数据的真伪是一个难题,比如一个调查的结果;
复杂性(Complexity):数据量巨大,来源多渠道;
价值(Value):合理运用大数据,以低成本创造高价值。
大数据的在以下几个方面: