Google发布的三篇论文是怎么样影响大数据行业发展的?
<h1 style="color: black; text-align: left; margin-bottom: 10px;">google<span style="color: black;">为何</span>发布这三篇文论?</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Google早起最早盈利的项目<span style="color: black;">便是</span>搜索引擎,那技术<span style="color: black;">怎样</span><span style="color: black;">连续</span>发展<span style="color: black;">作为</span>Google面对的问题。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">搜索引擎<span style="color: black;">重点</span>就做两件事情,一个是网页抓取,一个是索引构建,而在这个过程中,有<span style="color: black;">海量</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">的数据需要存储和计算。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">Google 在 2004 年前后<span style="color: black;">发布</span>的三篇论文,<span style="color: black;">亦</span><span style="color: black;">便是</span><span style="color: black;">咱们</span>经常听到的“三驾马车”,分别是分布式文件系统 GFS、大数据分布式计算框架MapReduce 和 NoSQL 数据库系统 BigTable。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这“三驾马车”其实<span style="color: black;">便是</span>用来<span style="color: black;">处理</span>这个问题的,</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">一个文件系统、一个计算框架、一个数据库系统。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">此刻</span>你听到<strong style="color: blue;">分布式、大数据之类</strong>的词,肯定一点儿<span style="color: black;">亦</span>不陌生。</p>
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/2fea1c55927e4ff7b821820e3fa7a276~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725948117&x-signature=CV%2ByiXd9jzFpVZRvMs%2FtqlASUQM%3D" style="width: 50%; margin-bottom: 20px;"></div>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">2004 年的大数据发展-萌芽期</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2004年<span style="color: black;">全部</span>互联网还<span style="color: black;">处在</span>懵懂时代,Google 发布的论文实在是让业界为之一振,<span style="color: black;">大众</span>恍然大悟,原来还<span style="color: black;">能够</span>这么玩。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">由于</span>那个时间段,大<span style="color: black;">都数</span><span style="color: black;">机构</span>的关注点其实还是聚焦在单机上,在思考<span style="color: black;">怎样</span><span style="color: black;">提高</span>单机的性能,寻找更贵更好的服务器。而 Google 的思路是<span style="color: black;">安排</span>一个大规模的服务器集群,<span style="color: black;">经过</span>分布式的方式将海量数据存储在这个集群上,<span style="color: black;">而后</span>利用集群上的所有<span style="color: black;">设备</span>进行数据计算。 <span style="color: black;">这般</span>,Google <span style="color: black;">并不</span>需要买<span style="color: black;">非常多</span>很贵的服务器,它只要把这些普通的<span style="color: black;">设备</span>组织到<span style="color: black;">一块</span>,就非常厉害了。</p>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">天才程序员-Doug Cutting闪亮登场</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">彼时他正在<span style="color: black;">研发</span>开源搜索引擎 Nutch,阅读了 Google 的论文后,他非常兴奋,紧接着就<span style="color: black;">按照</span>论文原理初步实现了类似 GFS 和 MapReduce 的功能。两年后的 2006 年,Doug Cutting 将这些大数据<span style="color: black;">关联</span>的功能从 Nutch 中分离了出来,<span style="color: black;">而后</span><span style="color: black;">起步</span>了一个独立的项目专门<span style="color: black;">研发</span><span style="color: black;">守护</span>大数据技术,这<span style="color: black;">便是</span>后来赫赫有名的 Hadoop,<span style="color: black;">重点</span><span style="color: black;">包含</span> Hadoop 分布式文件系统 HDFS 和大数据计算引擎 MapReduce。</p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">当<span style="color: black;">咱们</span>回顾软件<span style="color: black;">研发</span>的历史,<span style="color: black;">包含</span><span style="color: black;">咱们</span>自己<span style="color: black;">研发</span>的软件,你会<span style="color: black;">发掘</span>,有的软件在<span style="color: black;">研发</span>出来以后无人问津<span style="color: black;">或</span>寥寥数人<span style="color: black;">运用</span>,<span style="color: black;">这般</span>的软件其实在所有<span style="color: black;">研发</span>出来的软件中占大<span style="color: black;">都数</span>。而有的软件则可能会开创一个行业,每年创造数百亿美元的价值,创造百万计的就业岗位,这些软件曾经是 Windows、Linux、Java,而<span style="color: black;">此刻</span>这个名单要加上 Hadoop 的名字。<span style="color: black;">倘若</span>有时间,你<span style="color: black;">能够</span>简单浏览下 Hadoop 的代码,这个纯用 Java 编写的软件其实并<span style="color: black;">无</span>什么高深的技术难点,<span style="color: black;">运用</span>的<span style="color: black;">亦</span>都是<span style="color: black;">有些</span>最<span style="color: black;">基本</span>的编程技巧,<span style="color: black;">亦</span><span style="color: black;">无</span>什么出奇之处,<span style="color: black;">然则</span>它却给社会带来巨大的影响,<span style="color: black;">乃至</span>带动一场深刻的科技革命,推动了人工智能的发展与进步。</p>
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/15dfdffb43b640b8b42e190e2acdf17a~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725948117&x-signature=VX9hV79Ac42UxlAZSXBFnGiz72w%3D" style="width: 50%; margin-bottom: 20px;"></div>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">软件的价值点</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">多思考一下,<span style="color: black;">咱们</span>所<span style="color: black;">研发</span>软件的价值点在哪里?真正需要<span style="color: black;">运用</span>软件实现价值的<span style="color: black;">地区</span>在哪里?你应该关注业务、理解业务,有价值导向,用自己的技术为<span style="color: black;">机构</span>创造真正的价值,<span style="color: black;">从而</span>实现自己的人生价值。而不是整天埋头在<span style="color: black;">需要</span>说明文档里,做一个<span style="color: black;">无</span>思考的代码<span style="color: black;">设备</span>人。</p>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">2007-2008年 发展期</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Hadoop 发布之后,Yahoo <span style="color: black;">火速</span>就用了起来。大概又过了一年到了 2007 年,百度和阿里巴巴<span style="color: black;">亦</span><span style="color: black;">起始</span><span style="color: black;">运用</span> Hadoop 进行大数据存储与计算。2008 年,Hadoop 正式<span style="color: black;">作为</span> Apache 的顶级项目,后来 Doug Cutting <span style="color: black;">自己</span><span style="color: black;">亦</span><span style="color: black;">作为</span>了Apache 基金会的主席。自此,Hadoop <span style="color: black;">做为</span>软件<span style="color: black;">研发</span><span style="color: black;">行业</span>的一颗明星冉冉升起。同年,专门运营 Hadoop 的<span style="color: black;">商场</span><span style="color: black;">机构</span> Cloudera 成立,Hadoop 得到进一步的<span style="color: black;">商场</span>支持。这个时候,Yahoo 的<span style="color: black;">有些</span>人觉得用 MapReduce 进行大数据编程太麻烦了,于是便<span style="color: black;">研发</span>了Pig。Pig 是一种脚本语言,<span style="color: black;">运用</span>类 SQL 的语法,<span style="color: black;">研发</span>者<span style="color: black;">能够</span>用 Pig 脚本描述要对大数据集上进行的操作,Pig 经过编译后会生成 MapReduce 程序,<span style="color: black;">而后</span>在 Hadoop 上运行。编写 Pig 脚本虽然比直接 MapReduce 编程容易,<span style="color: black;">然则</span>依然需要学习新的脚本语法。</p>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">Facebook 又发布了 Hive</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Hive 支持<span style="color: black;">运用</span> SQL 语法来进行大数据计算,<span style="color: black;">例如</span>说你<span style="color: black;">能够</span>写个 Select 语句进行数据<span style="color: black;">查找</span>,<span style="color: black;">而后</span> Hive 会把 SQL 语句转 成 Ma Reduce 的计算程序。<span style="color: black;">这般</span>,<span style="color: black;">熟练</span>数据库的数据分析师和工程师便<span style="color: black;">能够</span>无门槛地<span style="color: black;">运用</span>大数据进行数据分 和处理了。Hive <span style="color: black;">显现</span>后<strong style="color: blue;"><span style="color: black;">极重</span> 度地降低了 Hadoop 的<span style="color: black;">运用</span>难度,<span style="color: black;">快速</span>得到<span style="color: black;">研发</span>者和企业的追捧</strong>。</p>
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/eccccf508e674337b0ff7aadb607ec5b~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725948117&x-signature=MKuyYSHsXAHwdS16POSK0SI7KBA%3D" style="width: 50%; margin-bottom: 20px;"></div>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">调度引擎Yarn引领潮流</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2011 年的时候,Facebook 大数据平台上运行的作业 90% 都<span style="color: black;">源自</span>于 Hive。随后,众多 H doop 周边<span style="color: black;">制品</span><span style="color: black;">起始</span><span style="color: black;">显现</span>,大数据生态体系<span style="color: black;">逐步</span>形成,其中<span style="color: black;">包含</span>:专门将关系数据库中的数据导入导出到 Hadoop 平台的 Sqoop;针对大规模日志进行分布式收集、聚合和传输的 Flume;MapReduce 工作流调度引擎 Oozie 等。在 Hadoop <span style="color: black;">初期</span>,MapReduce 既是一个执行引擎,又是一个资源调度框架,服务器集群的资源调度管理由 MapReduce 自己完成。<span style="color: black;">然则</span><span style="color: black;">这般</span><span style="color: black;">有害</span>于资源复用,<span style="color: black;">亦</span>使得MapReduce 非常臃肿。于是一个新项目<span style="color: black;">起步</span>了,将 MapReduce 执行引擎和资源调度分离开来,这<span style="color: black;">便是</span> Yarn。2012 年,Yarn <span style="color: black;">作为</span>一个独立的项目<span style="color: black;">起始</span>运营,随后被各类大数据<span style="color: black;">制品</span>支持,<span style="color: black;">作为</span>大数据平台上最主流的资源调度系统。</p>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">Spark崭露头角</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2012 年,UC 伯克利 AMP 实验室(Algorithms、Machine 和 People 的缩写)<span style="color: black;">研发</span>的 Spark <span style="color: black;">起始</span>崭露头角。当时 AMP 实验室的马铁博士<span style="color: black;">发掘</span><span style="color: black;">运用</span> MapReduce 进行<span style="color: black;">设备</span>学习计算的时候性能非常差,<span style="color: black;">由于</span><span style="color: black;">设备</span>学习算法<span style="color: black;">一般</span>需要进行<span style="color: black;">非常多</span>次的迭代计算,而MapReduce 每执行一次 Map 和 Reduce 计算都需要重新<span style="color: black;">起步</span>一次作业,带来<span style="color: black;">海量</span>的无谓消耗。还有一点<span style="color: black;">便是</span> MapReduce <span style="color: black;">重点</span><span style="color: black;">运用</span>磁盘<span style="color: black;">做为</span>存储介质,而 2012 年的时候,内存<span style="color: black;">已然</span>突破容量和成本限制,<span style="color: black;">作为</span>数据运行过程中<span style="color: black;">重点</span>的存储介质。Spark 一经推出,立即受到业界的追捧,并逐步替代 MapReduce 在企业应用中的地位。<span style="color: black;">通常</span>说来,像 MapReduce、Spark 这类计算框架处理的业务场景都被<span style="color: black;">叫作</span>作批处理计算,<span style="color: black;">由于</span>它们<span style="color: black;">一般</span>针对以“天”为单位产生的数据进行一次计算,<span style="color: black;">而后</span>得到需要的结果,这中间计算需要花费的时间大概是几<span style="color: black;">非常</span>钟<span style="color: black;">乃至</span>更长的时间。<span style="color: black;">由于</span>计算的数据是非在线得到的实时数据,而是历史数据,<span style="color: black;">因此</span>这类计算<span style="color: black;">亦</span>被<span style="color: black;">叫作</span>为<strong style="color: blue;">大数据离线计算</strong>。</p>
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/pgc-image/a40207ad019f4014b9413dc1aaad4a0c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725948117&x-signature=L2Br2V2n1XHS8Q1SzzN1BE6NDjo%3D" style="width: 50%; margin-bottom: 20px;"></div>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">大数据流计算来了</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在大数据<span style="color: black;">行业</span>,还有<span style="color: black;">另一</span>一类应用场景,它们需要对实时产生的大量数据进行即时计算,<span style="color: black;">例如</span><span style="color: black;">针对</span>遍布城市的监控摄像头进行人脸识别和嫌犯<span style="color: black;">跟踪</span>。这类计算<span style="color: black;">叫作</span>为大数据流计算,应地,有<strong style="color: blue;">Storm、Flink、Spark Streaming</strong>等流计算框架来满足此类大数据应用的场景。流式计算要处理的数据是实时在线产生的数据,<span style="color: black;">因此</span>这类计算<span style="color: black;">亦</span>被<span style="color: black;">叫作</span>为大数据实时计算。在典型的大数据的业务场景下,数据业务最通用的做法是,采用批处理的技术处理历史全量数据,采用流式计算处理实时新增数据。而像 Flink <span style="color: black;">这般</span>的计算引擎,<span style="color: black;">能够</span><span style="color: black;">同期</span>支持流式计算和批处理计算。</p>
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p26-sign.toutiaoimg.com/pgc-image/ae61088a34db486dac110d8a408943f3~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725948117&x-signature=KprEcESw7e5KeTMAUDf1pLRcVL8%3D" style="width: 50%; margin-bottom: 20px;"></div>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">NoSQL的发展</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">除了大数据批处理和流处理,NoSQL 系统处理的<span style="color: black;">重点</span><span style="color: black;">亦</span>是大规模海量数据的存储与<span style="color: black;">拜访</span>,<span style="color: black;">因此</span><span style="color: black;">亦</span>被归为大数据技术。 NoSQL 曾经在 2011 年<span style="color: black;">上下</span>非常<span style="color: black;">火热</span>,涌现出 HBase、Cassandra 等许多优秀的<span style="color: black;">制品</span>,其中 HBase 是从 Hadoop 中分离出来的、基于 HDFS 的NoSQL 系统。</p>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">历史竟惊人的<span style="color: black;">类似</span></h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">咱们</span>回顾软件发展的历史会<span style="color: black;">发掘</span>,差不多类似功能的软件,它们<span style="color: black;">显现</span>的时间都非常接近,<span style="color: black;">例如</span></span> <span style="color: black;">Linux</span> <span style="color: black;">和</span> <span style="color: black;">Windows</span> <span style="color: black;">都是在</span> <span style="color: black;">90</span> <span style="color: black;">年代初<span style="color: black;">显现</span>,Java</span> <span style="color: black;"><span style="color: black;">研发</span>中的各类</span> <span style="color: black;">MVC</span> <span style="color: black;">框架<span style="color: black;">亦</span>基本都是同期<span style="color: black;">显现</span>,Android</span> <span style="color: black;">和</span> <span style="color: black;">iOS</span> <span style="color: black;"><span style="color: black;">亦</span>是前脚后脚<span style="color: black;">面世</span></span></p>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">最后</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">事物发展有自己的潮流和规律,当你身处潮流之中的时候,要紧紧抓住潮流的机会,想办法脱颖而出,即使<span style="color: black;">无</span>成功,<span style="color: black;">亦</span>会更加洞悉时代的脉搏,收获<span style="color: black;">宝贵</span>的知识和经验。而<span style="color: black;">倘若</span>潮流<span style="color: black;">已然</span>退去,这个时候再去往这个方向上<span style="color: black;">奋斗</span>,只会收获迷茫与压抑,对时代、对自己都<span style="color: black;">无</span>什么<span style="color: black;">帮忙</span>。正如Google抓住了这个机会,<span style="color: black;">因此</span>他成功了,他引领了潮流。</span></strong></p>
外贸论坛是我们的,责任是我们的,荣誉是我们的,成就是我们的,辉煌是我们的。 我赞同你的看法,你的智慧让人佩服,谢谢分享。
页:
[1]