大数据概述1.1大数据时代00简要介绍01时代背景的支持1.2大数据的概念及其` 4V ' 影响00大数据的特征01大数据的影响1.3大数据的应用00影视剧的拍摄01谷歌预测流感03新冠肺炎疫区分布图1.4大数据的关键技术00大数据技术的层次02大数据计算模型1.5大数据与云计算、物联网的关系00云计算01物联网1.6总结。
1.1大数据时代00简单介绍一下大数据真正被大家认识的时间是在2010年左右,大数据的背景是第三次信息化浪潮,是以大数据、云计算、物联网三大新兴技术为代表的人类信息化史上的第三次浪潮。在此之前,有两次信息化浪潮,具体如下:
解决信息浪潮的时间标记问题代表了第一波企业,第二波个人计算机信息处理在1980年左右,英特尔、AMD、IBM、苹果、微软、联想、戴尔、惠普等互联网信息传输在1995年左右,雅虎、谷歌、阿里巴巴、百度、腾讯等第三波在2010年左右,物联网、云计算和大数据信息的爆炸将涌现出一批新的市场标杆。大数据时代的到来必然会有一些相关的支持,首先是技术支持,主要分为三点:①存储:存储设备的容量越来越大。
②计算:CPU的处理能力大大提高。
③网络:网络带宽在增加。
其次是数据生成方式的转变:①第一阶段(70、80年代):操作系统阶段,比如在超市购物时,购物信息是在数据库系统中逐一生成的。
②第二阶段(近2002年):用户生成内容阶段,例如博客、微博的出现。大众每个人都是自媒体,每个人都可以在网上发布数据。
(3)第三阶段:感知系统阶段,从物联网普及开始。物联网的底层是感知层,比如摄像头和传感器。这些设备无时无刻不在感知外部信息。可以说,物联网的出现真正导致了大数据的到来。
这可以简单概括大数据的发展历史:
时间阶段:90年代至上世纪末的萌芽期,本世纪前十年的成熟期,2010年后的大规模应用期。1.2大数据的概念和影响00强大数据的4V特征①数据量大。
大数据摩尔定律:人类最近两年产生的数据量相当于之前产生的所有数据,产生的数据是不寻常的。②数据种类多(品种多)。
大数据有很多种数据类型。大数据由结构化数据和非结构化数据组成,其中结构化数据约占10%,非结构化数据约占90%。结构化数据是存储在关系数据库中的结构化数据。非结构化数据是指图形和图像等数据。③数据生成快(速度快)。
从数据生成到数据消费,时间窗口非常小,可供决策的时间非常少。很多企业级应用需要遵守二级决策定律。4价值具有低价值密度。
数据量大,价值密度低,商业价值高。比如,摄像机无时无刻不在产生视频数据,但真正被我们使用的却很少。如果一整年不出意外,这些一整年的视频资料就没有任何作用了。只有在发生事故的时候,我们才会用到那一刻的视频数据,这就是数据的低价值密度。大数据的影响①科学研究的范式转变。
第一范式:实验如伽利略的比萨斜塔实验,第二范式:理论如几何结论和牛顿三定律,第三范式:计算如第四范式:数据(新)是数据驱动的。我们不知道问题出在哪里,问题出在哪里,完全是数据驱动的。我们通过大数据分析发现问题,解决问题。②思维方式的变化。
全样本,不是抽样。之前有太多数据需要保存和分析。统计学使用抽样。现在,我们可以分析所有的数据。
效率而不是精度过去抽样分析要求的是精度而不是效率,因为抽样分析只提取了部分数据,而不是全部数据。如果抽样计算的结果有误差,如果放到整个样本上,误差会被放大;现在全样本分析的误差都在全样本上,不需要刻意追求精度。这时候就讲究效率了,因为有些数据是有时效性的。如果目前没有计算,那么这个数据就是无效的。
在相关性而非因果性的大数据时代,我们不关心它们是为什么,我们只关心它们之间的相关性。比如你在淘宝买了一本书,它会给你推荐其他的书。它不会告诉你为什么,只会告诉你这几本书是有关联的。1.3大数据有很多应用。以下是一些例子:
在影视剧拍摄之前,影视剧的拍摄大多是跟风的。你看哪个剧拍的,别人也拍这个类型的剧,但不一定火;现在通过大数据分析,可以分析出我们选择哪个演员,哪个导演拍什么剧会受欢迎。比如美剧《纸牌屋》就是大数据分析的结果。没有大数据分析,谁也不知道找这个演员找这个导演然后拍这部剧会不会流行。
在谷歌预测流感之前,美国传统的流感预测方法是医疗机构逐级上报门诊病历,然后由专家对报告进行汇总分析。总的来说,这份报告比真实情况推迟了一到两周;谷歌利用搜索引擎实时收集用户的各类查询信息,通过大数据分析预测流感趋势。这是因为大部分人遇到小病先求助搜索引擎,再去医院。这样谷歌就可以根据感冒发烧等一些关键词来分析流感趋势,其预测结果与美国疾病预防控制中心发布的报告基本一致。
03新冠肺炎疫区分布图近两年,我们经常可以在手机上看到疫情的实时数据更新,疫区分布图就是大数据的一个应用。
1.4大数据的关键技术00大数据技术的层次大数据技术发展到了以下四个层次:
数据采集、数据存储与管理、数据处理与分析、数据隐私与安全,但近几年发展起来的大数据核心技术多在数据存储与管理层和数据处理与分析层,可以概括为两大核心技术:①分布式存储。
解决海量数据的存储问题,一台机器存储不了,所以我们用集群进行分布式存储②分布式处理。
为了解决处理海量数据的问题,一台机器无法高效地完成数据处理,所以我们使用集群来做分布式处理。本课程的主要内容就是讲这两个核心技术。分布式存储技术和分布式处理技术主要以Google的技术为代表,其中主要技术有分布式数据库大表、分布式文件系统GFS和分布式并行处理技术MapReduce。
02大数据计算模式现在大数据技术相关产品很多,但是企业中不同的应用场景属于不同的计算模式,需要使用不同的大数据技术,所以我们需要学会判断计算模式,选择合适的大数据技术相关产品①批量计算。
针对问题:批量处理大规模数据的代表产品:MapReduce、Spark等。MapReduce MapReduce是批处理计算模式的典型代表。只是需要一堆数据进行批量处理,不适合实时交互计算。星火Spark满足不了时效性的要求。其实时性能优于MapReduce,解决了MapReduce无法高效做迭代计算的问题。②流量计算。
针对问题:流数据的实时计算需要实时处理,给出实时对应,否则分析结果将失去商业价值流计算的代表产品:S4、暴风、水槽、Streams、Puma、DStream、超级马里奥、银河流数据处理平台等流计算可以做秒级数据③图计算进行实时操作。
针对问题:大规模图结构数据的处理图计算可以高效处理图数据,如:社交网络数据是图结构数据计算的代表产品:Google Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等。
针对问题:大规模数据交互式查询计算的存储管理和查询分析查询分析计算的代表产品:-Google Dremel、Hive、Cassandra、Impala等。1.5大数据与云计算、物联网的关系00云计算什么是云计算?云计算就是要解决两个核心问题:分布式存储和分布式处理。
云计算的典型特征:虚拟化和多用户
云计算的概念:云计算是通过网络以服务的形式为用户提供非常廉价的IT资源。
云计算的优势:企业无需自建IT基础设施,就可以租用云资源。
云计算的三种模式:
公有云面向公众,私有云面向企业内部混合云。有些是为了自己,有些是为了外部的三种云服务:
IaaS-基础设施即服务基础设施租赁(计算资源和存储)即服务PaaS-平台即服务面向开发者。开发者在开发产品时,调用平台接口,将产品部署在平台上,就可以使用平台的云计算资源SaaS——软件即服务。典型案例:云财务软件不需要安装在本地重用。对方把整个软件作为服务卖给你。只要有网络,就可以打开手机或电脑操作软件。云计算的关键技术是虚拟化、分布式存储、分布式计算和多租户。
01物联网物联网概念:
IOT(物联网)是与物相连的互联网,是互联网的延伸,是物联网的层级结构。
物联网的关键技术:识别技术和感知技术。
物联网、云计算、大数据紧密相关,相辅相成。
物联网可以借助大数据实现海量数据的存储和分析。1.6综上所述,我们对大数据的产生和发展、特点和影响、应用和关键技术、云计算的相关概念有一个简单的了解。
√圈重点:大数据的4V特征,大数据的影响(科学范式、思维),大数据计算模式(批量计算、流计算、图计算、查询分析计算),三种云服务,大数据、云计算、物联网的关系。
评论前必须登录!
注册