什么是大数据

广义的定义(哲学):大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出l提升效率的决策行为. 狭义的定义(技术):大数据,是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。

绿色数据中心生态圈| 2023.09.28作者:来源:绿色数据中心生态圈




大数据基本概念



大数据的定义



 


广义的定义(哲学):大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出l提升效率的决策行为.

狭义的定义(技术):大数据,是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。



数据的级别



 


1 KB=1024 B(KB-kilobyte)TXT文本文件

1MB=1024 KB(MB-megabyte)一份Word文件或一首音乐

1 GB =1024 MB(GB - gigabyte)一部电影

1 TB = 1024 GB(TB - terabyte)普通硬盘为1TB/2TB/4TB

1 PB =1024 TB(PB-petabyte)大约2个机柜的存储设备


现实中数据的例子:

1辆自动驾驶车每天可以产生的数据:60TB

1个智慧工厂每天可以产出的数据:1PB

1座智慧城市每天可以产出的数据:25PB

大型强子对撞机实验每年产出的数据:25PB

谷歌搜索引擎的数据总规模(2021年)为:62 PB全球数据量同比增速维持在25% 左右

预计到2025年,全球数据量将达到 175ZB




大数据级别



 


1EB=1024 PB(EB-exabyte)

大约2000个机柜的存储设备

1 ZB =1024 EB(ZB -zettabyte)全球电子设备存储的所有数据,在数+ZB级别


数据的主要来源



 

传统企业数据(Traditionalenterprise data)包括:

CRM用户数据、ERP数据、库存数据、人事数据、财务数据等


机器和传感器数据(Machine-generated /sensor data)包括:

       设备日志、智能仪表、工业传感器、环境传感器、摄像头等


社交数据(Social data)包括:

      用户行为记录、访问记录、UGC内容、反馈数据等



数据的类型(按结构)



 

结构化数据(Structured Data)

以关系数据库表形式管理的数据,例如企业ERP、OA、HR里的数据


非结构化数据(Unstructured Data)

数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,例如Word、PDF、PPT及各种格式的图片、视频等


半结构化数据(Semi-structured Data)

非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、E-mail等



数据的类型(按访问频率)



 

冷数据(Cold Data,占比80%)

指访问频率较低、对业务和应用不太重要的数据,例如备份数据、日志数据等


热数据 (Hot Data,占比5%)

指访问频率高、对业务和应用关键的数据,例如用户、设备的状态信息,以及浏览和交易行为。


温数据(Warm Data,占比15%)

指访问频率适中、对业务和应用有一定重要性的数据



数据的价值挖掘



 

大数据

是互联网的海量数据挖掘


数据挖掘

更多是针对内部企业行业小众化的数据挖掘


数据分析

就是进行做出针对性的分析和诊断


总结:大数据需要分析的是趋势和发展,数据挖掘主要发现的是问题和诊断


图片



大数据的五个特征(5个“V”)



 


规模性(Volume)

广泛的数据来源,决定了大数据形式的庞大体量。


高速性 (Velocity)

从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。


多样性(Variety)

数据的形式是多种多样的,包含了结构化和非结构化数据。


价值性(Value)

大数据的数据量很大,但是价值密度很低。数据中真正有价值的,只是其中的很少一部分。


真实性(Veracity)

大量数据带来不完整性和不一致性,因此产生了准确性。


图片


大数据与传统数据的对比



 


图片




大数据、云计算、人工智能的关系



 

云计算

关注资源的分配和利用,侧重于实现计算设备的资源虚拟化,从而实现更高效的资源利用。


大数据

是指海量数据的高效处理,主要处理庞大的数据。


两者之间的关系:

1、云计算给大数据提供了有力的工具,大数据为云计算提供了数据能力上的支撑。

2、大数据和云计算为人工智能提供了强大的数据存储和计算能力,服务于人工智能所需要的海量数据。








大数据的发展演进


 




大数据的发展(国际)



 


1980年,美国作家阿尔文托夫勒在《第三次浪潮》书中,将“大数据”称为“第三次浪潮的华彩乐章"。


1997年,美国宇航局研究员迈克尔·考克斯和大卫·埃尔斯沃斯首次使用“大数据”这一术语来描述海量数据带来的挑战。数据之大,超出了存储器的承载能力,称之为“大数据问题”。


2002年“911”袭击后,美国政府曾计划整合现有政府的数据集,组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库,后来停止了这一项目。


2006年,云计算出现。


2007-2008年,社交网络激增,刺激了大数据技术的发展。


2010年,肯尼斯库克尔发表大数据专题报告《数据,无所不在的数据》


2011年6月,麦肯锡发布报告,正式定义了大数据的概念,后逐渐受到了各行各业关注


2012年,英国科学家维克托路迈尔-舍恩伯格及肯尼斯路库克尔的《大数据时代》一书出版


2012年1月瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》宣称数据已经成为一种新的经济资产类别。



2014年4月,世界经济论坛以“大数据的回报与风险”主题发布了《全球信息技术报告(第13版)》。




大数据的发展(国内)



 


2011年12月,工信部发布的物联网十二五规划上,把信息处理技术作为4项关键技术创新工程之一被提出来其中包括了海量数据存储、数据挖掘、图像视频智能分析,这些是大数据的重要组成部分。


2012年7月,为挖掘大数据的价值,阿里巴巴在管理层设立“首席数据官”一职,负责全面推进“数据分享平台”战略,并推出大型的数据分享平台一-“聚石塔”,为电商及电商服务商等提供数据云服务


2014年,“大数据”首次出现在当年的《政府工作报告》中。《报告》中指出,要设立新兴产业创业创新平台在大数据等方面赶超先进,引领未来产业发展


2014年,国务院通过《企业信息公示暂行条例(草案)》,要求在企业部门间建立互联共享信息平台,运用大数据等手段提升监管水平,“大数据”成为国内热议词汇。


2015年,大数据上升到国家战略层面,我国政府于2015年8月通过了《关于促进大数据发展的行动纲要》


2015年10月26日至29日,党的十八届五中全会召开,公报提出要实施“国家大数据战略”,这是大数据第一次写入党的全会决议,标志着大数据战略正式上升为国家战略,五中全会开启了大数据建设的新篇章。


图片



数据的发展阶段



 

起步阶段

数据库被发明之后,使得数据管理的复杂度大大降低。各行各业开始产生了数据,从而被记录在数据库中。这个阶段的数据,以结构化数据为主。数据的产生方式,也是被动的。


转变阶段

伴随着互联网2.0时代出现的。互联网2.0的最重要标志,就是用户原创内容随着互联网和移动通信设备的普及,人们开始使用博客、脸书、微博、QQ空间等社交网络,从而主动产生了大量的数据。


加速阶段

是万物互联和数字化转型阶段。随着物联网的发展,各种各样的感知层节点(传感器、摄像头等)开始自动产生大量的数据实现物理世界向数字世界的映射。


图片



大数据的未来趋势



 

资产化

大数据价值不断提升,在企业和社会层面成为重要的战略资源、无形资产。


智能化

大数据将更加智能化,可以自动进行数据处理和分析,提高数据处理效率和质量


个性化

大数据将更加关注用户需求,实现个性化服务和定制化产品。


可视化

大数据将更加注重数据可视化,通过图表、报表等方式将数据呈现给用户,以实现用户对数据的直观理解。


安全性

大数据将更加注重数据安全,采用更加严格的数据保护措施,确保数据的安全性和隐私性。







大数据的产业链

大数据的市场规模



 

2022年,我国大数据产业规模达到1.57万亿元,同比增长18%,成为推动数字经济发展的重要力量。


预计未来三年保持15%以上的年均增速,到2023年底产业规模超过10000亿元。


其中,基础设施市场规模约为3000亿元左右,占比约为19%;数据服务市场规模约为5000亿元左右,占比约为32%;融合应用市场规模约为7200亿元左右,占比约为49%。


2022年,我国互联网大数据市场规模达到2887.4亿元,占整个大数据产业规模的45.2%,是最大的应用领域


2022年,我国政府大数据市场规模达到926亿元,占整个大数据产业规模的14.5%,是第二大应用领域。


2022年,我国金融大数据市场规模达到601.6亿元,占整个大数据产业规模的9.4%,是第三大应用领域



数据的价值链



 


图片



大数据产业链



 


图片

图片


大数据的应用领域



 

图片


大数据的产业价值核心领域



 


图片



大数据平台架构(政务)



 


图片







大数据的关键技术


 



大数据技术演进



 


1960年代,能够统一管理和共享数据的数据库管理系统(DBMS)诞生


1990年代,为满足企业数据分析的诉求,数据仓库诞生


2000年代,以Hadoop为代表的大数据技术体系诞生,大数据研究框架成型


2010年代,在云技术的带动下,云上纯托管的存储系统逐步取代HDFS,开始出现数据湖


2020年代,开始逐渐走向“云湖共生”“湖仓一体”。


图片

图片

图片



大数据的处理过程



 



图片




数据预处理与存储



 


数据清理.

主要就是初步对数据进行,不一致检测、噪声数据识别、数据过滤、修正等,进一步提高数据的准确性、真实性、可用性等


数据集成

就是将多个数据源的数据进行集成,从而形成集中、统一的数据库


数据归约

是指在不损害分析结果准确性的前提下,通过维归约、数量归约、数据抽样等技术,提高大数据存储的价值性


数据转换处理

通过转换实现数据统一、这一过程有利于提升大数据的一致性和可用性

大数据存储主要是利用分布式文件系统、数据仓库、关系数据库、NoSql数据库、云数据库等实现对结构化、半结构化、非结构化海量数据的存储和管理



大数据的技术架构



 


图片



大数据技术栈



 


图片



数据湖



 


数据湖是一类存储数据自然/原始格式的集中式存储库。数据湖通常是企业中全量数据的单一存储。


数据湖允许以任意规模存储所有结构化、半结构化和非结构化数据。


数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施。


数据湖以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理。


数据湖通过与各类外部异构数据源的交互集成,支持各类企业级应用。





批处理、流处理



 

批处理:

收集并存储多项数据记录,然后在一次操作中一起处理它们。

适用于不需要实时分析的场景。

MapReduce。


流处理:

持续监视数据源,并在出现新数据事件时实时处理数据源

不同节点之间数据的传输是实时传递。

Storm、Spark Streaming、Flink等。


流批一体:

Lambda架构



图片图片图片图片图片图片图片图片图片图片图片图片图片图片图片图片

(版权归属原作者,如涉侵权,请联系删除)

 


预约演示
您好,商务咨询请联系
售前咨询服务:
13883353035
申请试用
企微客服
立即扫码享受一对一服务