博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark概述
阅读量:6882 次
发布时间:2019-06-27

本文共 643 字,大约阅读时间需要 2 分钟。

1. Spark定义

构建与计算集群之上支持大数据集的快速的通用的处理引擎
a)快速: DAG、Memory
b)通用:集成Spark SQL、Streaming、Graphic、R、Batch Process
c)运行方式:
StandAlone
YARN
Mesos
AWS
d)数据来源:
Hdfs Hbase Tachyon Cassandra Hive
and Any Hadoop Data Source
2.Spark协议栈
2.1 Hadoop生态系统
2.2 Spark协议栈
2.3 Spark VS Mapreduce

MapReduce 与Spark比较

1.what? 处理对象
a)MapReduce:基于磁盘File的大数据处理系统
b)Spark:基于RDD(弹性分布式数据集),可以显示的将RDD数据存储到磁盘和内存中
2.where(软硬件上下文)?
a)MapReduce: Disk
b)Spark: Mem
3.when?(应用场景)
a)MapReduce:可以处理超大规模数据,适合日志分析挖掘等迭代较少的长任务需求,结合了数据的分布式的计算
b)spark:适合数据的挖掘,机器学习等多伦迭代式计算任务

容错性:

a)数据容错性
MapReduce:容错性基于HDFS 冗余机制 ->安全模式->数据校验->元数据保护
spark:容错性基于RDD,spark容错性比mapreduce容错性低,但在处理效率上优势比较明显
b)节点容错性

 

转载地址:http://tknbl.baihongyu.com/

你可能感兴趣的文章
openNebula rgister img instance vms error collections
查看>>
error Infos
查看>>
PL/sql配置相关
查看>>
接着浅析table-cell的简单应用
查看>>
Project 10:简单图像的绘制
查看>>
(第五条)避免创建不必要的对象
查看>>
MongoDB的快速手动安装
查看>>
面试常见问题(转载)
查看>>
洛谷P3306 随机数生成器
查看>>
《平凡的世界》中田晓霞和孙少平的爱情
查看>>
【资源共享】《DDR常见问题简单排查》
查看>>
Spot 安装和使用
查看>>
第1件事 产品经理工作的8个核心步骤
查看>>
Http协议的post和get提交方式。
查看>>
JSP、Java和Servlet获取当前工程的路径
查看>>
数据归一化
查看>>
秘诀!支付宝支撑双十一4200万次/秒的数据库请求峰值的技术实现
查看>>
Matlab----获取一个文件夹下所有文件名
查看>>
jmeter报错
查看>>
bzoj4035【HAOI2015】数组游戏
查看>>