绿色数据中心生态圈| 2023.09.28作者:来源:绿色数据中心生态圈
广义的定义(哲学):大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出l提升效率的决策行为.
狭义的定义(技术):大数据,是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。
1 KB=1024 B(KB-kilobyte)TXT文本文件
1MB=1024 KB(MB-megabyte)一份Word文件或一首音乐
1 GB =1024 MB(GB - gigabyte)一部电影
1 TB = 1024 GB(TB - terabyte)普通硬盘为1TB/2TB/4TB
1 PB =1024 TB(PB-petabyte)大约2个机柜的存储设备
现实中数据的例子:
1辆自动驾驶车每天可以产生的数据:60TB
1个智慧工厂每天可以产出的数据:1PB
1座智慧城市每天可以产出的数据:25PB
大型强子对撞机实验每年产出的数据:25PB
谷歌搜索引擎的数据总规模(2021年)为:62 PB全球数据量同比增速维持在25% 左右
预计到2025年,全球数据量将达到 175ZB
1EB=1024 PB(EB-exabyte)
大约2000个机柜的存储设备
1 ZB =1024 EB(ZB -zettabyte)全球电子设备存储的所有数据,在数+ZB级别
传统企业数据(Traditionalenterprise data)包括:
CRM用户数据、ERP数据、库存数据、人事数据、财务数据等
机器和传感器数据(Machine-generated /sensor data)包括:
设备日志、智能仪表、工业传感器、环境传感器、摄像头等
社交数据(Social data)包括:
用户行为记录、访问记录、UGC内容、反馈数据等
结构化数据(Structured Data)
以关系数据库表形式管理的数据,例如企业ERP、OA、HR里的数据
非结构化数据(Unstructured Data)
数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,例如Word、PDF、PPT及各种格式的图片、视频等
半结构化数据(Semi-structured Data)
非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、E-mail等
冷数据(Cold Data,占比80%)
指访问频率较低、对业务和应用不太重要的数据,例如备份数据、日志数据等
热数据 (Hot Data,占比5%)
指访问频率高、对业务和应用关键的数据,例如用户、设备的状态信息,以及浏览和交易行为。
温数据(Warm Data,占比15%)
指访问频率适中、对业务和应用有一定重要性的数据
大数据
是互联网的海量数据挖掘
数据挖掘
更多是针对内部企业行业小众化的数据挖掘
数据分析
就是进行做出针对性的分析和诊断
总结:大数据需要分析的是趋势和发展,数据挖掘主要发现的是问题和诊断
规模性(Volume)
广泛的数据来源,决定了大数据形式的庞大体量。
高速性 (Velocity)
从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。
多样性(Variety)
数据的形式是多种多样的,包含了结构化和非结构化数据。
价值性(Value)
大数据的数据量很大,但是价值密度很低。数据中真正有价值的,只是其中的很少一部分。
真实性(Veracity)
大量数据带来不完整性和不一致性,因此产生了准确性。
云计算
关注资源的分配和利用,侧重于实现计算设备的资源虚拟化,从而实现更高效的资源利用。
大数据
是指海量数据的高效处理,主要处理庞大的数据。
两者之间的关系:
1、云计算给大数据提供了有力的工具,大数据为云计算提供了数据能力上的支撑。
2、大数据和云计算为人工智能提供了强大的数据存储和计算能力,服务于人工智能所需要的海量数据。
1980年,美国作家阿尔文托夫勒在《第三次浪潮》书中,将“大数据”称为“第三次浪潮的华彩乐章"。
1997年,美国宇航局研究员迈克尔·考克斯和大卫·埃尔斯沃斯首次使用“大数据”这一术语来描述海量数据带来的挑战。数据之大,超出了存储器的承载能力,称之为“大数据问题”。
2002年“911”袭击后,美国政府曾计划整合现有政府的数据集,组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库,后来停止了这一项目。
2006年,云计算出现。
2007-2008年,社交网络激增,刺激了大数据技术的发展。
2010年,肯尼斯库克尔发表大数据专题报告《数据,无所不在的数据》
2011年6月,麦肯锡发布报告,正式定义了大数据的概念,后逐渐受到了各行各业关注
2012年,英国科学家维克托路迈尔-舍恩伯格及肯尼斯路库克尔的《大数据时代》一书出版
2012年1月瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》宣称数据已经成为一种新的经济资产类别。
2014年4月,世界经济论坛以“大数据的回报与风险”主题发布了《全球信息技术报告(第13版)》。
2011年12月,工信部发布的物联网十二五规划上,把信息处理技术作为4项关键技术创新工程之一被提出来其中包括了海量数据存储、数据挖掘、图像视频智能分析,这些是大数据的重要组成部分。
2012年7月,为挖掘大数据的价值,阿里巴巴在管理层设立“首席数据官”一职,负责全面推进“数据分享平台”战略,并推出大型的数据分享平台一-“聚石塔”,为电商及电商服务商等提供数据云服务
2014年,“大数据”首次出现在当年的《政府工作报告》中。《报告》中指出,要设立新兴产业创业创新平台在大数据等方面赶超先进,引领未来产业发展
2014年,国务院通过《企业信息公示暂行条例(草案)》,要求在企业部门间建立互联共享信息平台,运用大数据等手段提升监管水平,“大数据”成为国内热议词汇。
2015年,大数据上升到国家战略层面,我国政府于2015年8月通过了《关于促进大数据发展的行动纲要》
2015年10月26日至29日,党的十八届五中全会召开,公报提出要实施“国家大数据战略”,这是大数据第一次写入党的全会决议,标志着大数据战略正式上升为国家战略,五中全会开启了大数据建设的新篇章。
起步阶段
数据库被发明之后,使得数据管理的复杂度大大降低。各行各业开始产生了数据,从而被记录在数据库中。这个阶段的数据,以结构化数据为主。数据的产生方式,也是被动的。
转变阶段
伴随着互联网2.0时代出现的。互联网2.0的最重要标志,就是用户原创内容随着互联网和移动通信设备的普及,人们开始使用博客、脸书、微博、QQ空间等社交网络,从而主动产生了大量的数据。
加速阶段
是万物互联和数字化转型阶段。随着物联网的发展,各种各样的感知层节点(传感器、摄像头等)开始自动产生大量的数据实现物理世界向数字世界的映射。
资产化
大数据价值不断提升,在企业和社会层面成为重要的战略资源、无形资产。
智能化
大数据将更加智能化,可以自动进行数据处理和分析,提高数据处理效率和质量
个性化
大数据将更加关注用户需求,实现个性化服务和定制化产品。
可视化
大数据将更加注重数据可视化,通过图表、报表等方式将数据呈现给用户,以实现用户对数据的直观理解。
安全性
大数据将更加注重数据安全,采用更加严格的数据保护措施,确保数据的安全性和隐私性。
2022年,我国大数据产业规模达到1.57万亿元,同比增长18%,成为推动数字经济发展的重要力量。
预计未来三年保持15%以上的年均增速,到2023年底产业规模超过10000亿元。
其中,基础设施市场规模约为3000亿元左右,占比约为19%;数据服务市场规模约为5000亿元左右,占比约为32%;融合应用市场规模约为7200亿元左右,占比约为49%。
2022年,我国互联网大数据市场规模达到2887.4亿元,占整个大数据产业规模的45.2%,是最大的应用领域
2022年,我国政府大数据市场规模达到926亿元,占整个大数据产业规模的14.5%,是第二大应用领域。
2022年,我国金融大数据市场规模达到601.6亿元,占整个大数据产业规模的9.4%,是第三大应用领域
1960年代,能够统一管理和共享数据的数据库管理系统(DBMS)诞生
1990年代,为满足企业数据分析的诉求,数据仓库诞生
2000年代,以Hadoop为代表的大数据技术体系诞生,大数据研究框架成型
2010年代,在云技术的带动下,云上纯托管的存储系统逐步取代HDFS,开始出现数据湖
2020年代,开始逐渐走向“云湖共生”“湖仓一体”。
数据清理.
主要就是初步对数据进行,不一致检测、噪声数据识别、数据过滤、修正等,进一步提高数据的准确性、真实性、可用性等
数据集成
就是将多个数据源的数据进行集成,从而形成集中、统一的数据库
数据归约
是指在不损害分析结果准确性的前提下,通过维归约、数量归约、数据抽样等技术,提高大数据存储的价值性
数据转换处理
通过转换实现数据统一、这一过程有利于提升大数据的一致性和可用性
大数据存储主要是利用分布式文件系统、数据仓库、关系数据库、NoSql数据库、云数据库等实现对结构化、半结构化、非结构化海量数据的存储和管理
数据湖是一类存储数据自然/原始格式的集中式存储库。数据湖通常是企业中全量数据的单一存储。
数据湖允许以任意规模存储所有结构化、半结构化和非结构化数据。
数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施。
数据湖以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理。
数据湖通过与各类外部异构数据源的交互集成,支持各类企业级应用。
批处理:
收集并存储多项数据记录,然后在一次操作中一起处理它们。
适用于不需要实时分析的场景。
MapReduce。
流处理:
持续监视数据源,并在出现新数据事件时实时处理数据源
不同节点之间数据的传输是实时传递。
Storm、Spark Streaming、Flink等。
流批一体:
Lambda架构
(版权归属原作者,如涉侵权,请联系删除)