大数据首先是一个非常大的数据集,可以达到TB(万亿字节)甚至ZB(十万亿亿字节)。这里面的数据可能既有结构化的数据,也有半结构化和非结构化的数据,而且来自于不同的数据源。
结构化的数据是什么呢?对于接触过关系型数据库的小伙伴来说,应该一点都不陌生。对了,就是我们关系型数据库中的一张表,每行都具有相同的属性。如下面的一张表:
每行数据都有相同的属性,这就是结构化的数据。
我们再来看半结构化数据。XML或JSON格式的数据就是我们所常见的半结构的数据。如,下面所示的XML数据:
(子标签的次序和个数不一定完全一致)
那什么又是非结构化数据呢?这类数据没有预定义完整的数据结构,在我们日常工作生活中可能更多接触的就是这类数据,比如,图片、图像、音频、视频、办公文档等等。
知道了这三类结构的数据,我们再来看看大数据的数据源有哪些呢?归纳起来大致有五种数据源。
一是社交媒体平台。如有名气的Facebook、Twitter、YouTube和Instagram等。媒体是比较受欢迎的大数据来源之一,因为它提供了关于消费者偏好和变化趋势的宝贵依据。并且因为媒体是自我传播的,可以跨越物理和人口障碍,因此它是企业深入了解目标受众、得出模式和结论、增强决策能力的方式。
二是云平台。公有的、私有的和第三方的云平台。如今,越来越多的企业将数据转移到云上,超越了传统的数据源。云存储支持结构化和非结构化数据,并为业务提供实时信息和随需应变的依据。云计算的主要特性是灵活性和可伸缩性。由于大数据可以通过网络和服务器在公共或私有云上存储和获取,因此云是一种高效、经济的数据源。
三是Web资源。公共网络构成了广泛且易于访问的大数据,个人和公司都可以从网上或“互联网”上获得数据。此外,国内的大型购物网站,淘宝、京东、阿里巴巴,更是云集了海量的用户数据。
四是IoT(Internet of Things)物联网数据源。物联网目前正处于迅猛发展势头。有了物联网,我们不仅可以从电脑和智能手机获取数据,还可以从医疗设备、车辆流程、视频游戏、仪表、相机、家用电器等方面获取数据。这些都构成了大数据宝贵的数据来源。
五是来自于数据库的数据源。现今的企业都喜欢融合使用传统和现代数据库来获取相关的大数据。这些数据都是企业驱动业务利润的宝贵资源。常见的数据库有MS Access、DB2、Oracle、MySQL以及大数据的数据库Hbase、MongoDB等。
我们再来总结一下,什么样的数据就属于大数据呢?通常来大数据有4个特点,这就是业内人士常说的4V,volume容量、 variety多样性、velocity速度和veracity准确性。
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据结构特点:
结构
大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
特点
大数据大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。
大数据的4个“V”,或者说特点有四个层面:
第一,数据体量巨大。从TB级别,跃升到PB级别。
第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。
第三,处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。
第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个“V”——Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)。
大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。
本回答被网友采纳