spark编程指南 pdf是一部非常实用的spark教程,这部电子书详细讲解了spark编程方法以及技巧,能够让你快速入门,需要的朋友欢迎来劲途游戏网免费下载!
总体上来说,每个Spark应用都包含一个驱动器(driver)程序,驱动器运行用户的main函数,并在集群上执行各种并行操作。
Spark最重要的一个抽象概念就是弹性分布式数据集(resilient distributed dataset – RDD),RDD是一个可分区的元素集合,其包含的元素可以分布在集群各个节点上,并且可以执行一些分布式并行操作。RDD通常是通过,HDFS(或者其他Hadoop支持的文件系统)上的文件,或者驱动器中的Scala集合对象,来创建或转换得到;其次,用户也可以请求Spark将RDD持久化到内存里,以便在不同的并行操作里复用之;最后,RDD具备容错性,可以从节点失败中自动恢复数据。
Spark第二个重要抽象概念是共享变量,共享变量是一种可以在并行操作之间共享使用的变量。默认情况下,当Spark把一系列任务调度到不同节点上运行时,Spark会同时把每个变量的副本和任务代码一起发送给各个节点。但有时候,我们需要在任务之间,或者任务和驱动器之间共享一些变量。Spark提供了两种类型的共享变量:广播变量和累加器,广播变量可以用来在各个节点上缓存数据,而累加器则是用来执行跨节点的“累加”操作,例如:计数和求和。
1. Introduction
2. 快速上手
i. SparkShell
ii. 独立应用程序
iii. 开始翻滚吧!
3. 编程指南
i. 引入Spark
ii. 初始化Spark
iii. SparkRDDs
i. 并行集合
ii. 外部数据集
iii. RDD操作
i. 传递函数到Spark
ii. 使用键值对
iii. Transformations
iv. Actions
iv. RDD持久化
iv. 共享变量
v. 从这里开始
4. SparkStre
i. 一个快速的例子
ii. 基本概念
i. 关联
ii. 初始化StreamingContext
iii. 离散流
iv. 输入DStreams
v. DStream中的转换
vi. DStream的输出操作
vii. 缓存或持久化
viii. Checkpointing
ix. 部署应用程序
x. 监控应用程序
iii. 性能调优
i. 减少批数据的执行时间
ii. 设置正确的批容量
iii. 内存调优
iv. 容错语义
5. SparkSQL
i. 开始
ii. 数据源
i. RDDs
ii. parquet文件
iii. JSON数据集
iv. Hive表
iii. 性能调优
iv. 其它SQL接口
v. 编写语言集成(Language-Integrated)的相关查询
vi. SparkSQL数据类型
6. GraphX编程指南
i. 开始
ii. 属性图
iii. 图操作符
TableofContentsiv. PregelAPI
v. 图构造者
vi. 顶点和边RDDs
vii. 图算法
viii. 例子
7. 部署
i. 提交应用程序
ii. 独立运行Spark
iii. 在yarn上运行Spark
8. 更多文档
i. Spark配置