1. Spark定义
构建与计算集群之上支持大数据集的快速的通用的处理引擎a)快速: DAG、Memoryb)通用:集成Spark SQL、Streaming、Graphic、R、Batch Processc)运行方式:StandAloneYARNMesosAWSd)数据来源:Hdfs Hbase Tachyon Cassandra Hiveand Any Hadoop Data Source2.Spark协议栈2.1 Hadoop生态系统2.2 Spark协议栈2.3 Spark VS MapreduceMapReduce 与Spark比较
1.what? 处理对象a)MapReduce:基于磁盘File的大数据处理系统b)Spark:基于RDD(弹性分布式数据集),可以显示的将RDD数据存储到磁盘和内存中2.where(软硬件上下文)? a)MapReduce: Disk b)Spark: Mem3.when?(应用场景)a)MapReduce:可以处理超大规模数据,适合日志分析挖掘等迭代较少的长任务需求,结合了数据的分布式的计算b)spark:适合数据的挖掘,机器学习等多伦迭代式计算任务容错性:
a)数据容错性MapReduce:容错性基于HDFS 冗余机制 ->安全模式->数据校验->元数据保护spark:容错性基于RDD,spark容错性比mapreduce容错性低,但在处理效率上优势比较明显b)节点容错性