百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

谷歌弃用MapReduce!力推新云分析工具

yuyutoo 2025-06-04 03:22 3 浏览 0 评论

| 责编:王迪

在Google,MapReduce有着非常广泛的应用,包括分布排序,Web访问日志分析、反向构建索引和机器学习等。Nutch项目开发,正是以MapReduce的项目为依据,开发出后来大名鼎鼎的Hadoop。

Hadoop架构示意图(来自cnblog)

可惜风云变幻,时光荏苒,现在谷歌宣布要弃用MapReduce,转而投向更有前景的云分析平台。

mapreduce平行编程设计架构流程图(图片来自Google)

实际上,MapReduce虽然被称为谷歌三宝之一。谷歌内部对这款产品并不是很满意。在2010年就传出消息说,谷歌正在构建新型网络内容索引系统来替代MapReduce。从2009年开始,Google就已经启动了代号为“Colossus”的研发计划,主要内容围绕新的分布式文件系统——Caffeine进行研发。

麻省理工学院的数据库专家Mike Stonebraker认为,MapReduce的计算方法对于实时计算来说是很不合适的,是过时的。

在旧金山举行的Google I/O大会上,谷歌发布了Cloud Dataflow以替代MapReduce。谷歌高级副总裁Holzele指出,一旦数据到达几个PB级别,MapReduce处理起来并不是那么得心应手。

Google I/O大会展示的Cloud Dataflow幻灯片(图:oschina.net)

在大会上,谷歌力推Cloud Dataflow新平台,认为该系统比起同规模任何系统,其运行速度更快。

Cloud Dataflow能创建数据管道,在批处理和流处理模式下摄取、转变和分析数据。相比MapReduce可以降低运营开销,更容易的从数据中获取到可行的见解。同样,谷歌将会为开发人员提供其云服务平台,而没有类似此前MapReduce平台上的一些限制。

“Cloud Dataflow是谷歌十几年技术研发的成果,提供完全自动优化的部署、管理和拓展服务。”Holzele继续说道。

在大会上,Holzele也宣示了一些其他云服务平台取得的成果。

Cloud Save

Cloud Save是一种API,允许应用程序在云里或其他地方保存单个用户的数据,并使用它而不需要提供任何服务器端代码。 借助谷歌平台即服务提供的App Engine,用户可以通过计算引擎的特性构建自己的应用程序。

Cloud Debugging

部署在云中的许多服务器软件上的漏洞可以被Cloud Debugging找到并筛选出来。

Cloud Tracing

Cloud Tracing在不同的项目中调用统计数据,例如服务器数据库延迟的调用,并且提供分析报告。

Cloud Monitoring

Cloud Monitoring是一种智能监控系统,是Stackdriver集成的结果,谷歌于今年5月份刚刚购买了这个项目。提供云基础设施资源的检测功能,对磁盘、虚拟机、谷歌服务的服务项目以及十多个非谷歌开源包进行监测。

笔者在此提醒,Hadoop平台是开源的,但是Cloud Dataflow并不是,任何公司想要使用它都必须要为谷歌的服务付费。

作为谷歌三宝之一的MapReduce,随着数据到达PB级别的实时计算能力不足,全新Cloud Dataflow成为谷歌推出的替代产品,并提供完全自动优化的部署、管理和拓展服务。

王迪

相关推荐

Docker部署 chatgpt-web-midjourney-proxy:开启一站式AI与绘图

ChatGPT和Midjourney的结合无疑是创新性的突破。ChatGPT作为强大的语言模型,能够为用户提供智能的对话和文本生成服务。而Midjourney则以其出色的绘画能力,能够根据...

Cacti监控服务器配置教程(基于CentOS+Nginx+MySQL+PHP环境搭建)

具体案例:局域网内有两台主机,一台Linux、一台Windows,现在需要配置一台Cacti监控服务器对这两台主机进行监控...

那些少为人知却非常有意思好用的 Chrome 扩展

ChromeWebStoreSessionManager要睡觉了,还有网页没看完怎么办?等明天点开歷史记录重新加载?No!有这个保存当前打开的链接,下回直接打开一串网址,好顶赞有木有!!!chr...

分享一款轻量级 HTTP(S) 代理 TinyProxy

概述众所周知,我们常用的Web服务器Nginx/Apache都可以很方便的用来做为正向或反向代理服务器使用。但是它们都并不支持HTTPS的正向代理。Nginx做为正向代理不支持HT...

深入理解 WebSecurityConfigurerAdapter「源码篇」

我们继续来撸SpringSecurity源码,今天来撸一个非常重要的WebSecurityConfigurerAdapter。我们的自定义都是继承自WebSecurityConfigurer...

RPC、Web Service等几种远程监控通信方式对比

几种远程监控通信方式的介绍一.RPCRPC使用C/S方式,采用http协议,发送请求到服务器,等待服务器返回结果。这个请求包括一个参数集和一个文本集,通常形成“classname.meth...

老酒好喝,5G时代数据中心柴油发电机组以GPRS方式接入动环监控

背景:随着手机的普及,电信运营商基站越建越多,网络覆盖范围也越来越广,基本上随时随地都能通过运营商的网络上网冲浪,这给我们传统的通过有线方式实现的动环监控也提带来了新的启发:对于不具备有线传输条件的的...

为了春节红包大战,微信做了一次成功的预热!

经过上午的预告,微信在今天下午17:00正式推出了微信红包新玩法——红包照片。微信用户在朋友圈点击照片发送按钮,会看到“红包照片”选项,用户在选择发布照片之后,这张照片将被模糊处理后,再发送到朋友...

Proxy-Lite实战:3步部署+2个案例,轻松掌握轻量级网页自动化

大家好,我是何三,80后老猿,独立开发者一、Proxy-Lite模型概述...

会Python?那么你一定要试一试mitmproxy

mitmproxy是一款工具,也可以说是python的一个包,使用这个工具可以在命令行上进行抓包(现在也可以在web页面上查看上抓的数据包了),还可以对所抓到的包进行脚本处理,非常有用。和...

十大Web安全扫描工具,你知道哪些?

初入门时,喜欢将目标站点直接丢扫描器,慢慢等扫描结果,极度依赖Web扫描器;而有一些漏洞高手,善于运用运用各种工具但并不依赖工具,经常可以找到扫描工具发现不了的漏洞。一款好用的Web扫描器对于白帽子来...

鸿蒙5网页开发神器 ArkWeb:让 Web 和原生手拉手跳舞

你有没有想过,在鸿蒙应用里既能用原生代码写高性能界面,又能直接塞进一个网页?这听起来有点像把汉堡和披萨拼在一起,但ArkWeb(方舟Web)真的做到了!今天咱们就聊聊这个神奇的工具,看看它如何让...

MapReduce过程详解及其性能优化(详细)

从JVM的角度看Map和ReduceMap阶段包括:第一读数据:从HDFS读取数据1、问题:读取数据产生多少个Mapper??Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟...

大数据平台建设需要掌握的14个知识

Q1、大数据分析中的实时推荐是如何实现的?@rein07某证券系统架构师:实时推荐需要使用实时处理框架结合推荐算法,从而做到对数据的实时处理和推荐。实时处理框架有Storm、Flink、Spark...

HDFS可视化管理系统设计与实现(hdfs的可靠性设计,主要依靠哪些机制来实现)

摘要:Hadoop工具核心模块包括分布式文件系统(HadoopDistributedFileSystem,HDFS)和分布式编程模型MapReduce,其中HDFS是Hadoop数据存储处理的...

取消回复欢迎 发表评论: