Spark概述-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

Spark概述

阅读量：6882 次

发布时间：2019-06-27

本文共 643 字，大约阅读时间需要 2 分钟。

1. Spark定义

构建与计算集群之上支持大数据集的快速的通用的处理引擎

a)快速： DAG、Memory

b)通用：集成Spark SQL、Streaming、Graphic、R、Batch Process

c)运行方式：

StandAlone

YARN

Mesos

AWS

d)数据来源：

Hdfs Hbase Tachyon Cassandra Hive

and Any Hadoop Data Source

2.Spark协议栈

2.1 Hadoop生态系统

2.2 Spark协议栈

2.3 Spark VS Mapreduce

MapReduce 与Spark比较

1.what? 处理对象

a)MapReduce:基于磁盘File的大数据处理系统

b）Spark：基于RDD(弹性分布式数据集)，可以显示的将RDD数据存储到磁盘和内存中

2.where(软硬件上下文)？

a)MapReduce: Disk

b)Spark: Mem

3.when？(应用场景)

a)MapReduce：可以处理超大规模数据，适合日志分析挖掘等迭代较少的长任务需求，结合了数据的分布式的计算

b)spark：适合数据的挖掘，机器学习等多伦迭代式计算任务

容错性：

a)数据容错性

MapReduce：容错性基于HDFS 冗余机制 ->安全模式->数据校验->元数据保护

spark：容错性基于RDD，spark容错性比mapreduce容错性低，但在处理效率上优势比较明显

b)节点容错性

转载地址：http://tknbl.baihongyu.com/

你可能感兴趣的文章

openNebula rgister img instance vms error collections

PL/sql配置相关

接着浅析table-cell的简单应用

Project 10:简单图像的绘制

（第五条）避免创建不必要的对象

MongoDB的快速手动安装

面试常见问题（转载）

洛谷P3306 随机数生成器

《平凡的世界》中田晓霞和孙少平的爱情

【资源共享】《DDR常见问题简单排查》

Spot 安装和使用

第1件事产品经理工作的8个核心步骤

Http协议的post和get提交方式。

JSP、Java和Servlet获取当前工程的路径

数据归一化

秘诀！支付宝支撑双十一4200万次/秒的数据库请求峰值的技术实现

Matlab----获取一个文件夹下所有文件名

bzoj4035【HAOI2015】数组游戏

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-02 10:02:36 当前IP: 3.145.94.36 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我