大数据系列之计算框架MapReduce(大数据计算框架分为)
yuyutoo 2025-06-04 03:22 4 浏览 0 评论
CDA数据分析师 出品
1、 MapReduce计算框架简介
Mapreduce 是hadoop项目中的分布式运算程序的编程框架,是用户开发"基于hadoop的数据分析应用"的核心框架,Mapreduce 程序本质上是并行运行的。分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得巨大的计算能力。谷歌公司最先提出了分布式并行编程模型MapReduce,Hadoop MapReduce是它的开源实现。
Hadoop发展到现在已经有三代了(这里的代指的是软件版本号后的第一位数字,如我们用的版本为2.7.5 就是指第二代,第二代可以表示为hadoop2.x或hadoop2,一代表示为hadoop1或hadoop1.x),目前主流的是hadoop2,与之对应的就是mapreduce2。下图为hadoop1平台与hadoop2平台的对比。可以看到hadoop1中平台和计算框架是一体的,对于一个集群只能有一个计算框架,而在hadoop2中平台(资源管理yarn)与计算框架是分离出来的,这样一个平台就可以对应多个计算框架了比如可以在运行MapReduce的时候还可以运行spark等计算框架。
2、 MapReduce运行原理
核心思想是移动计算(代码)的成本低于移动数据的成本,所以只移动计算不移动数据。
MapReduce过程大致分两个阶段,map阶段和reduce阶段,每个阶段都以键值对作为输入与输出,其具体的类型由代码决定,代码中需要给出map与reduce函数的具体实现高度并行的map阶段
在这个阶段, 输入数据被split为离散的块,可以被分别/并行处理 在map阶段, 通常执行输入格式解析、 投影(选择相关的字段)和过滤(删除不感兴趣的记录)
reduce阶段 一个聚合或汇总的阶段。 在这个阶段, map阶段的输出被聚合以产生期望的结果,所有相关的记录(record)必须被集中在一起由一个单一的实例处理。
其实在map函数与reduce函数之间还有个shuffle过程,比较复杂我们在下章讲解。
3、 MapReduce的优缺点
MapReduce的优点:
- 易于编程;
- 良好的扩展性;
- 高容错性;
- 适合PB级别以上的大数据的分布式离线批处理。
MapReduce的缺点:
- 难以实时计算(MapReduce处理的是存储在本地磁盘上的离线数据)
- 不能流式计算(MapReduce设计处理的数据源是静态的)
- 难以DAG计算
(有向无环图计算,由于多个任务存在依赖关系,后一个应用的输入是前一个应用的输出。解决这一问题的方式有Apache的Tez计算框架,它是基于hadoop Yarn之上的DAG计算框架,它将MapReduce任务分解为多个子任务同时可以把多个Map/ Reduce任务合并成一个大的DAG任务,这样当前一个任务完成之后,直接将结果输出给下一个任务,不用将结果写到磁盘之上,减少了Map/Reduce之间的文件存储。同时合理的组合其子过程,减少了任务的运行时间。)。
更多优质内容及精彩资讯,点击【了解更多】进入!
相关推荐
- Docker部署 chatgpt-web-midjourney-proxy:开启一站式AI与绘图
-
ChatGPT和Midjourney的结合无疑是创新性的突破。ChatGPT作为强大的语言模型,能够为用户提供智能的对话和文本生成服务。而Midjourney则以其出色的绘画能力,能够根据...
- Cacti监控服务器配置教程(基于CentOS+Nginx+MySQL+PHP环境搭建)
-
具体案例:局域网内有两台主机,一台Linux、一台Windows,现在需要配置一台Cacti监控服务器对这两台主机进行监控...
- 那些少为人知却非常有意思好用的 Chrome 扩展
-
ChromeWebStoreSessionManager要睡觉了,还有网页没看完怎么办?等明天点开歷史记录重新加载?No!有这个保存当前打开的链接,下回直接打开一串网址,好顶赞有木有!!!chr...
- 分享一款轻量级 HTTP(S) 代理 TinyProxy
-
概述众所周知,我们常用的Web服务器Nginx/Apache都可以很方便的用来做为正向或反向代理服务器使用。但是它们都并不支持HTTPS的正向代理。Nginx做为正向代理不支持HT...
- 深入理解 WebSecurityConfigurerAdapter「源码篇」
-
我们继续来撸SpringSecurity源码,今天来撸一个非常重要的WebSecurityConfigurerAdapter。我们的自定义都是继承自WebSecurityConfigurer...
- RPC、Web Service等几种远程监控通信方式对比
-
几种远程监控通信方式的介绍一.RPCRPC使用C/S方式,采用http协议,发送请求到服务器,等待服务器返回结果。这个请求包括一个参数集和一个文本集,通常形成“classname.meth...
- 老酒好喝,5G时代数据中心柴油发电机组以GPRS方式接入动环监控
-
背景:随着手机的普及,电信运营商基站越建越多,网络覆盖范围也越来越广,基本上随时随地都能通过运营商的网络上网冲浪,这给我们传统的通过有线方式实现的动环监控也提带来了新的启发:对于不具备有线传输条件的的...
- 为了春节红包大战,微信做了一次成功的预热!
-
经过上午的预告,微信在今天下午17:00正式推出了微信红包新玩法——红包照片。微信用户在朋友圈点击照片发送按钮,会看到“红包照片”选项,用户在选择发布照片之后,这张照片将被模糊处理后,再发送到朋友...
- Proxy-Lite实战:3步部署+2个案例,轻松掌握轻量级网页自动化
-
大家好,我是何三,80后老猿,独立开发者一、Proxy-Lite模型概述...
- 会Python?那么你一定要试一试mitmproxy
-
mitmproxy是一款工具,也可以说是python的一个包,使用这个工具可以在命令行上进行抓包(现在也可以在web页面上查看上抓的数据包了),还可以对所抓到的包进行脚本处理,非常有用。和...
- 十大Web安全扫描工具,你知道哪些?
-
初入门时,喜欢将目标站点直接丢扫描器,慢慢等扫描结果,极度依赖Web扫描器;而有一些漏洞高手,善于运用运用各种工具但并不依赖工具,经常可以找到扫描工具发现不了的漏洞。一款好用的Web扫描器对于白帽子来...
- 鸿蒙5网页开发神器 ArkWeb:让 Web 和原生手拉手跳舞
-
你有没有想过,在鸿蒙应用里既能用原生代码写高性能界面,又能直接塞进一个网页?这听起来有点像把汉堡和披萨拼在一起,但ArkWeb(方舟Web)真的做到了!今天咱们就聊聊这个神奇的工具,看看它如何让...
- MapReduce过程详解及其性能优化(详细)
-
从JVM的角度看Map和ReduceMap阶段包括:第一读数据:从HDFS读取数据1、问题:读取数据产生多少个Mapper??Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟...
- 大数据平台建设需要掌握的14个知识
-
Q1、大数据分析中的实时推荐是如何实现的?@rein07某证券系统架构师:实时推荐需要使用实时处理框架结合推荐算法,从而做到对数据的实时处理和推荐。实时处理框架有Storm、Flink、Spark...
- HDFS可视化管理系统设计与实现(hdfs的可靠性设计,主要依靠哪些机制来实现)
-
摘要:Hadoop工具核心模块包括分布式文件系统(HadoopDistributedFileSystem,HDFS)和分布式编程模型MapReduce,其中HDFS是Hadoop数据存储处理的...
你 发表评论:
欢迎- 一周热门
-
-
前端面试:iframe 的优缺点? iframe有那些缺点
-
带斜线的表头制作好了,如何填充内容?这几种方法你更喜欢哪个?
-
漫学笔记之PHP.ini常用的配置信息
-
推荐7个模板代码和其他游戏源码下载的网址
-
其实模版网站在开发工作中很重要,推荐几个参考站给大家
-
[干货] JAVA - JVM - 2 内存两分 [干货]+java+-+jvm+-+2+内存两分吗
-
正在学习使用python搭建自动化测试框架?这个系统包你可能会用到
-
织梦(Dedecms)建站教程 织梦建站详细步骤
-
【开源分享】2024PHP在线客服系统源码(搭建教程+终身使用)
-
2024PHP在线客服系统源码+完全开源 带详细搭建教程
-
- 最近发表
-
- Docker部署 chatgpt-web-midjourney-proxy:开启一站式AI与绘图
- Cacti监控服务器配置教程(基于CentOS+Nginx+MySQL+PHP环境搭建)
- 那些少为人知却非常有意思好用的 Chrome 扩展
- 分享一款轻量级 HTTP(S) 代理 TinyProxy
- 深入理解 WebSecurityConfigurerAdapter「源码篇」
- RPC、Web Service等几种远程监控通信方式对比
- 老酒好喝,5G时代数据中心柴油发电机组以GPRS方式接入动环监控
- 为了春节红包大战,微信做了一次成功的预热!
- Proxy-Lite实战:3步部署+2个案例,轻松掌握轻量级网页自动化
- 会Python?那么你一定要试一试mitmproxy
- 标签列表
-
- mybatis plus (70)
- scheduledtask (71)
- css滚动条 (60)
- java学生成绩管理系统 (59)
- 结构体数组 (69)
- databasemetadata (64)
- javastatic (68)
- jsp实用教程 (53)
- fontawesome (57)
- widget开发 (57)
- vb net教程 (62)
- hibernate 教程 (63)
- case语句 (57)
- svn连接 (74)
- directoryindex (69)
- session timeout (58)
- textbox换行 (67)
- extension_dir (64)
- linearlayout (58)
- vba高级教程 (75)
- iframe用法 (58)
- sqlparameter (59)
- trim函数 (59)
- flex布局 (63)
- contextloaderlistener (56)