关注分享主机优惠活动
国内外VPS云服务器

第一章 大数据概述

摘要:围绕大数据时代第三次信息化浪潮,云计算、大数据、物联网的兴起,标志着第三次信息化浪潮的开始。 大数据的发展历史、大数据的概念以及影响大数据的特征。 处理大规模图结构化数据。 物联网应用、大数据、云计算和物联网之间的关系是互补的、相关的,同时又是不同的。

1.1 大数据时代 1.1.1 第三次信息化浪潮

2010年左右,以云计算、大数据、物联网为代表的第三次信息化浪潮到来。做过。

IT发展史上经历过的信息化浪潮如下。

1.1.2 大数据时代的到来需要技术支撑

主要标志是:

存储设备容量不断增大,CPU处理能力大幅提升,网络带宽增加。 1.1.3 数据生成方式的变化正在推动大数据时代的到来。

第一阶段:操作系统阶段。 例如:购物记录。 数据仅由操作系统生成。 第二阶段:用户生成内容阶段。 例如:微信。 所有的网络用户都可以成为自媒体,向互联网发送信息。 但到目前为止,还不足以加速大数据时代的到来。 第三阶段:感知系统阶段。 物联网 (IoT) 的大规模采用使得万物互联成为可能。 物联网的最底层是感知层,例如摄像头和传感器。 这些设备不断生成大量数据。 物联网的兴起,迎来了大数据时代。

1.1.4 大数据的发展历史

1.2 大数据的概念及影响 1.2.1 大数据的4V 特征

4V 特征是速度、多样性、价值点。和体积。

(1)大数据:大数据摩尔定律(IDC估计数据每年以50%的速度增长,意味着每两年翻一番)。 人类在过去两年中产生的数据量相当于以前产生的所有数据量。。 (2)数据类型不同:大数据分为结构化数据和非结构化数据:

结构化数据存储在关系数据库中,仅占其中的10%。 其中大部分是非结构化数据,并且有许多不同的类型。

(3) 处理速度快:如今,许多公司需要在几秒钟内做出决策。 数据生成和使用之间的时间窗口非常短,以至于几乎没有时间可以做出决策。 一秒规则:这与传统的数据挖掘技术有着根本的不同。

(4)价值密度低,商业价值高:数据量如此之大,很多数据可能毫无价值。 例如,监控摄像头不断生成并需要存储大量数据。 当事件发生时,摄像机中存储的镜头是有用的,但事件发生的概率很小,因此价值密度很低。

1.2.2 大数据的影响

图灵奖获得者吉姆·格雷博士总结说,人类经历了四种范式:实验范式、理论范式、计算范式和科学研究数据范式。

从思维上来说,大数据彻底颠覆了传统思维。

这是一个完整的示例,而不是样本。 在大数据时代之前,并不是所有的数据都能被存储和分析,只能采用统计抽样的方式。 在分析过程中,很多数据被丢弃,只提取部分数据进行存储、计算和分析。 但现在我们有足够的空间来构建服务器集群来处理海量的数据,我们可以进行各种数据分析。 效率高于准确性 传统上,在进行抽样统计时,需要不断提高算法的准确性,因为抽样计算结果应用于整个样本时,误差会被放大,更容易超出参考值。 可承受范围。 但全样本分析不存在误差放大的问题。 我们不追求准确性,而是追求及时性和效率。 相关性而不是因果关系更多的是关于事物如何相互关联,而不是因果关系。 不要问为什么,只关注相关性。

1.3 大数据的应用 1.3.1 大数据的应用领域

1.3.2 示例:流感预测

Google 利用大数据预测流感趋势,利用搜索引擎预测流感趋势收集有关用户搜索信息的实时数据。 通常,当我们遇到疾病时,我们首先会在搜索引擎上查找,然后再去医院。 这些搜索关键词形成了一个巨大的数据库。

1.4 大数据关键技术 1.4.1 大数据技术层次

下图展示了大数据技术的层次。 大数据的核心技术有两个层面:数据存储与管理、数据处理与分析。

1.4.2 两大核心技术

两大核心技术是分布式存储和分布式处理。

分布式存储:解决海量数据的存储问题。 当单机无法存储大量数据时,可以使用集群进行分布式存储。

分布式处理:解决处理大量数据的问题。 当单机无法高效处理大量数据时,可以使用集群进行分布式处理。

1.4.3 大数据技术以Google技术为代表

1.4.4 大数据计算模型

目前有很多大数据相关产品可以用于批量处理。 -时间计算、交互计算,但没有一个产品能够满足您的所有需求。 因此,不同的计算模型需要使用不同的产品。 典型的计算模式可以分为四种类型。

批处理计算:代表的是MapReduce和Spark。 用于解决大数据的批量处理。 不适合实时交互计算,无法达到秒级响应。 其中,Spark比MapReduce更加实时,可以进行迭代计算。 例如,如果您的数据挖掘需要迭代计算,您应该使用 Spark。

流计算:典型例子有Storm、S4、Flume、Streams、Puma、DStream、SuperMario、Galaxy流数据处理平台。 它要求实时处理、实时响应,否则很难分析。 结果就失去了商业价值。 流计算的框架是:

图计算:典型的有Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb。 处理大规模图结构数据。 在现实生活中,社交网络和交通网络可以转换为图结构并进行处理。

查询分析与计算:典型例子有Hive、Dremel、Cassandra、Impala。 用于大规模数据的存储管理和查询分析。

以下是计算模型的汇总表。

1.5 大数据与云计算计算与物联网的关系 1.5.1 云计算 云计算要解决两个核心问题:大规模数据的存储和处理。

云计算的典型特征:虚拟化、多租户。

云计算概念:通过网络以服务的形式向用户提供非常廉价的IT资源。

云计算的优点:企业无需搭建自己的IT基础设施,可以租用云资源。

云计算的三种模式:公有云、混合云、私有云。 公有云示例:百度云,对所有用户开放。 私有云的示例:电信、移动、内部。 混合云:一些为您自己,一些为公众。

三种云服务:IaaS、PaaS、SaaS

IaaS:基础设施即服务 将基础设施(计算资源和存储)出租为服务。 例如,Amazon 提供 EC2,您可以直接购买并将其安装到您的环境中以安装系统和服务。 该平台已经提供了CPU和其他资源。 PaaS:平台即服务 个人没有能力或环境来开发自己的云计算产品。 例如,新浪构建了Sina App Engine,一个云计算分布式开发平台。 可以购买并用于与新浪一起开发和部署云服务。 SaaS:软件即服务 将软件作为服务出售。 典型案例:云财务软件。 一种模型,其中软件从中央系统部署并在本地计算机上(或从云远程)运行。 SaaS 是一种按需付费服务,因此您可以租用应用程序并按小时计费。

云计算的关键技术:

多租户:同时为多个用户提供服务。 虚拟化:所有计算机操作都基于Linux环境,可以利用虚拟化技术将Linux系统安装到虚拟机中。 虚拟专用网络 VPN 等

云计算数据中心:数据中心是云计算的温床。 各种数据和应用程序都驻留在数据中心。

世界各地正在建设许多数据中心:

数据中心投资非常昂贵,消耗大量能源,并且需要稳定的环境,必须建设到位。 。 应对结构和凉爽的气候。

政务云、教育云、小型企业云、医疗云都是云计算的应用。

1.5.2 物联网

物联网:IoT(The 物联网)

物联网概念:物联网是互联网的延伸。

物联网分层架构:

物联网典型应用:智慧公交。 JPS定位在公交车上对应的是感知层,沿途通过基站传输信息,用户通过互联网获取信息。

物联网关键技术:

识别与识别技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等。

物联网应用:

1.5.3 大数据、云计算与物联网的关系

这三者相辅相成,既相关又不同。

未经允许不得转载:主机频道 » 第一章 大数据概述

评论 抢沙发

评论前必须登录!