博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
好程序员技术解析Hadoop和spark的性能比较
阅读量:4616 次
发布时间:2019-06-09

本文共 865 字,大约阅读时间需要 2 分钟。

  好程序员技术解析 Hadoop和spark的性能比较,大数据培训一度受到广大IT爱好者的追捧,成为最热门的培训学科!前景无需多述,高薪就业,职场一片坦途!今天好程序员就为大家讲解下关于大数据的知识要点。问:

Hadoop和spark的性能有何区别。

  如果说Hadoop是一家大型包工队,我们可以通过它组织人员进行合作,搬砖建造房屋,弊端在于速度较慢。

  Spark是另一家包工队,成立时间较晚,但是他们搬砖更为灵活,可以实时交互地盖房子,工作效率比Hadoop快得多。

  当Hadoop开始升级,指定调度专家YARN调度工人。Spark从多个仓库搬砖(HDFS,Cassandra,S3,HBase),还允许不同专家如YARN/ MESOS对人员和任务进行调度。

  当然,Spark和Hadoop团队进行合作,问题变得更加复杂。作为两个独立的包工队,二者都有着各自的优缺点和特定的业务用例。

  因此,我们说Hadoop和spark的性能区别在于:

  Spark在内存中运行速度比Hadoop快100倍,在磁盘上运行速度快10倍。众所周知,Spark在数量只有十分之一的机器上,对100TB数据进行排序的速度比Hadoop MapReduce快3倍。此外,Spark在机器学习应用中的速度同样更快,例如Naive Bayes和k-means。

  Spark性能之所以比Hadoop更优,原因在于每次运行MapReduce任务时,Spark都不会受到输入输出的限制。事实证明,应用程序的速度要快得多。再有Spark的DAG可以在各个步骤之间进行优化。Hadoop在MapReduce步骤之间没有任何周期性连接,这意味着在该级别不会发生性能调整。但是,如果Spark与其他共享服务在YARN上运行,则性能可能会降低并导致RAM开销内存泄漏。出于这个原因,如果用户有批处理的诉求,Hadoop被认为是更高效的系统。

转载于:https://www.cnblogs.com/gcghcxy/p/11010624.html

你可能感兴趣的文章
Spring3升级到Spring4时, 运行时出现找不到MappingJacksonHttpMessageConverter的情况
查看>>
详解缓冲区溢出攻击以及防范方法
查看>>
分布式事务解决方案(一) 2阶段提交 & 3阶段提交 & TCC
查看>>
android之网格布局和线性布局实现注册页面
查看>>
BZOJ 1014: [JSOI2008]火星人prefix( splay + hash )
查看>>
Windows下AngularJS 和 Git 搭建Angular HelloWorld开发环境
查看>>
安装ejabberd2并配置MySQL为其数据库
查看>>
蛇形填数(算法竞赛入门经典)
查看>>
angular repeat
查看>>
Ubuntu16.04系统安装后的10件真正必做之事 | 原创
查看>>
CF862B Mahmoud and Ehab and the bipartiteness 二分图染色判定
查看>>
android 图片圆角化控件
查看>>
不错的题目
查看>>
随我的记
查看>>
java第三次作业
查看>>
HP Jack介绍
查看>>
敏捷软件开发(3)---COMMAND 模式 & Active Object 模式
查看>>
常量与运算
查看>>
Python 04--迭代器、装饰器、软件开发规范
查看>>
poj 1062 昂贵的聘礼 解题报告
查看>>