大数据基本概念及发展阶段

大数据(Big Data)这一概念自从20世纪90年代第一次提出以来,一直是很热门的词汇,但并没有统一的定义。大数据一般是指传统数据处理软件无法处理的庞大或复杂的数据集。大数据分析包括数据获取、数据存储、数据检索、数据分析、共享、传输、可视化、查询、信息隐私保护和数据溯源。大数据最初与3个关键概念相

图片

大数据(Big Data)这一概念自从20世纪90年代第一次提出以来,一直是很热门的词汇,但并没有统一的定义。大数据一般是指传统数据处理软件无法处理的庞大或复杂的数据集。大数据分析包括数据获取、数据存储、数据检索、数据分析、共享、传输、可视化、查询、信息隐私保护和数据溯源。大数据最初与3个关键概念相关联:数据体量大、数据的多样性和数据更新速度快。如果没有掌握大数据的专业知识,那么数据的数量和种类可能会产生超出从大数据中创造和获取价值的成本和风险。

狭义的大数据往往是指使用预测分析、用户行为分析或某些其他从大数据中提取价值的数据分析方法。大数据的分析总是和“发现商业趋势、预防疾病、打击犯罪等”相关联。就其真正本质而言,大数据分析技术并不是全新的内容,也不是最近几十年才有的。人们一直在尝试使用数据分析技术来支持他们的决策过程。公元前 300 年左右的古埃及人已经尝试在亚历山大图书馆中获取“数据”。此外,罗马帝国常常分析其军队的统计数据,以确定军队的最佳分布。

然而,在过去的二十年中,数据生成的数量和速度发生了变化——超出了人类的理解范围。2013 年全球数据总量为 4.4ZB。预计到 2025 年,这一数字将急剧上升至 175ZB。即使使用当今最快的计算机,也无法分析所有数据。如何处理这些越来越大(和非结构化)的数据集是过去十年传统数据分析逐步演变为“大数据”的原因。


01

大数据1.0阶段

数据分析和大数据起源于数据库管理领域。它严重依赖于传统关系数据库管理系统 (RDBMS) 中的存储、提取和优化技术。

数据库管理和数据仓库被认为是大数据1.0阶段的核心组成部分。它集成了一些成熟的技术,如数据库查询、在线分析处理和标准报告工具,为今天的数据分析奠定了基础。

大数据1.0阶段的需求得益于互联网的蓬勃发展,需要对海量的非结构化数据进行分布式存储与并行计算,主要的关键技术包括以HDFS/HBase为代表的海量数据存储层和以MapReduce为代表的批处理计算框架。从决策角度看,这一阶段主要以数据驱动的模式为主。


02

大数据2.0阶段

自2000年年初以来,Internet 和 Web 开始提供独特的数据收集和数据分析机会。随着网络流量和在线商店的扩张,雅虎、亚马逊和eBay等公司开始通过分析点击率、IP 特定位置数据和搜索日志来分析客户行为。这开启了一个全新的蕴含各种可能性的新世界。

从数据分析和大数据的角度来看,基于HTTP的Web流量引入大量的半结构化和非结构化数据,除了标准的结构化数据类型之外,现在需要寻找新的方法和存储解决方案来处理这些新的数据类型,以便有效地分析它们。社交媒体数据的出现和增长极大地加剧了对能够从这些非结构化数据中提取有意义信息的工具、技术和分析技术的需求。

这一阶段以融合计算为主的技术趋势,是伴随着移动互联网发展的,需要对海量、多样化、高并发的数据进行实时分析、交互式查询。关键技术包括HDFS/HBase和MPP,强调类YARN的统一资源管理,包括MapReduce的批处理、Spark内存计算、Solr交互式计算和Storm流式计算等。从决策角度来看,这一阶段是理论驱动的。


03

大数据3.0阶段

在这一阶段,尽管来自Web的大量非结构化内容仍然是数据分析和大数据方面的主要关注点,但移动设备带来了更多更丰富的有价值的信息。移动设备不仅可以分析行为数据,如点击和搜索查询,还可以存储和分析GPS 数据。随着这些移动设备的进步,可以跟踪运动、分析身体行为甚至与健康相关的数据。这些数据提供了一系列全新的应用机会,从交通到城市设计和医疗保健。

同时,基于传感器的互联网设备的兴起正在以前所未有的方式提高数据生成速度和体量。数以百万计的电视、恒温器、可穿戴设备甚至冰箱以“物联网”而闻名,单台设备每天都在产生数兆字节的数据。从这些新数据源中提取有意义和有价值信息的工作对大数据的技术提出了新的要求。

这一阶段围绕着认知计算展开,面对的需求是在万物互联时代对海量流式数据、人工智能分析等提供毫秒级的低延时处理能力,关键技术包括HDFS/HBase和MPPDB的智能跨域数据中心存储、以YARN为核心的智能跨域数据中心资源管理、Spark和Data Intensive Streaming的融合数据处理平台,最后为人工智能、知识探索、发现和管理的认知计算服务。从决策角度看,大数据3.0阶段进入了Data-driving-theory即数据驱动理论的阶段。




04

参考书籍




图片


大数据存储(NoSQL)

配数据集、课件、教学大纲、教学日历、期末试卷及答案

作者:郭旦怀
定价:59.90元
ISBN:9787302633761
出版日期:2023.09.01


在当今大数据的时代,数据是最为宝贵的资源,是社会管理、商业应用、科学研究、国防安全的决策基础。随着对数据容量、数据访问便捷性和数据安全性重视程度的提升,几乎所有的信息系统都需要使用数据库系统来组织、存储、管理数据,人们对新型数据库技术的研究和关注日益增多。同时,目前的数据库系统相关书籍主要讲解关系数据库以及NoSQL数据库,研究状况也局限于多年之前,缺少对NoSQL以及NewSQL全面系统的介绍。基于上述背景,本书主要基于新一代数据库技术,介绍以NoSQL、NewSQL数据库为代表的大数据存储的相关理论、设计思想以及应用。


本书主要内容


全书分为三部分共10章。


第一部分为大数据相关基础知识,包括第1~3章。

第1章绪论,介绍数据存储基本概念、数据存储的发展阶段、大数据基本概念以及大数据时代的数据存储关键技术。

第2章回顾数据库发展史,概括数据库发展简史,按数据库发展时间线依次介绍网状与层次数据库、关系数据库、NoSQL、NewSQL,随后介绍中国数据库的发展历史,最后展望下一代数据库的关键技术。

第3章介绍数据库的基本原理、设计原则以及评价标准。



第二部分为NoSQL基础与应用,包括第4~8章。

第4章介绍NoSQL基本原理以及键值数据库、列族数据库、文档数据库及图数据库4类NoSQL数据库的设计思想。

第5章介绍键值数据库实例:Redis与DynamoDB,包括对Redis与DynamoDB基础知识、关键技术或工作原理的介绍以及Redis的安装实践。

第6章介绍列族数据库实例:HBase与Cassandra,包括对HBase与Cassandra基础知识、关键技术或工作原理的介绍以及安装实践。

第7章介绍文档数据库实例:MongoDB与CouchDB,包括对MongoDB与CouchDB基础知识、关键技术或工作原理的介绍以及安装实践。

第8章介绍图数据库实例:Neo4j与ArangoDB,包括对Neo4j与ArangoDB基础知识、关键技术或工作原理的介绍以及安装实践。



第三部分为NewSQL基础与应用,包括第9、10章。

第9章介绍NewSQL数据库的基本原理、分类以及设计思想。

第10章介绍3种典型的NewSQL数据库:TiDB、Vitess和CockroachDB,包括对这3种典型NewSQL数据库基础知识、工作原理的介绍以及安装实践。


(版权归属原作者,如涉侵权,请联系删除)



预约演示
您好,商务咨询请联系
售前咨询服务:
13883353035
申请试用
企微客服
立即扫码享受一对一服务