2019好程序员Spark教程【11.2GB】

yyzhi · 发表于 2026-4-2 10:15:35

下载地址：
游客，如果您要查看本帖隐藏内容请回复

【课程目录】

day02：
声明一个数组，元素有1,2,3,4,5,6
用for、while将数组中的元素打印出来
至少用两种方法将数组中的奇数打印出来

day03：
创建一个Map，用不同的方式进行遍历
创建一个元组，获取元组中的值，遍历元组
集合里有多个数组，每个数组的长度相同，将每个数组的相同下标下的元素进行聚合。
      例如：Seq(Array(2,3,4), Array(1,2,3), Array(4,5,6))
      结果为：Array(7,10,13)

day04：
map和foreach的区别
map和flatMap的区别
有列表：List(1,2,3,4,5,6),分别用reduce和foldLeft实现所有元素的和
有列表：List(("java", 1),("scala", 2),("python", 3))
      1)将List每个元素的第一个值拼接，将每个元素的第二个值相加，结果为：(javascalapython,6)
      2)将List每个元素的第二个值进行聚合，结果为：6

day05:
手写Scala版的WordCount
有列表：List(1,2,3,4,5,6,7,8,9,10),
用aggregate实现该列表元素的个数和所有元素的和，结果为：(10, 55)

day07：
描述RDD的概念和特性
手写SparkWordCount

day08:
有用户访问日志数据access.log，求pv，uv

day09:
描述RDD的概念和特性
RDD的算子分两种，各有什么特性？
RDD的依赖分两种，怎么区分？

day10：
Stage划分过程
RDD的缓存的应用场景
检查点的应用场景和使用步骤
Spark的任务提交流程

day11：
写出下列代码的打印结果：
def joinRdd(sc:SparkContext) {
      val name= Array((1,"spark"),(2,"flink"),(3,"hadoop"))
      val score= Array((1,100),(2,90),(3,80))
      val namerdd=sc.parallelize(name)
      val scorerdd=sc.parallelize(score)
      val result = namerdd.join(scorerdd)
      result.collect.foreach(println);
}
((1, (spark, 100)), (2, (flink, 90)), (3, ....))

列出至少5个用于聚合的算子
reduceByKey、aggregate、aggregateByKey、reduce、foldByKey、countByKey、combineByKey

列出至少5个会发生shuffle的算子
byKey类的算子
重分区算子
join、cogroup
distinc

自定义排序的应用场景

day12:
Accumulator累加器的应用场景和特性以及使用过程
广播变量的应用场景
map和mapPartition区别和应用场景
foreach和foreachPartition区别和应用场景
flatMap和map区别和应用场景

day13：
DataFrame的概念
DataSet的概念
RDD、DataFrame、DataSet互相转换用到的方法
描述一下使用udf的流程

day14：
有数据文件test.txt
数据内容：
hello java hello
hello scala scala
hello python
....还有很多数据....
用SparkSQL求单词计数
将结果保存到MySQL

day15：
分区（partition）的作用？
segment的大小可以设置吗？
kafka的文件存储机制？
当consumer的数量发生变化时，会触发kafka的负载均衡，触发负载均衡的目的是什么？
如何消费已经被消费过的数据？
partition和consumer的数量关系？
生产者的分区策略？

day16：
手写Streaming应用程序，实现批次累加功能
transform的应用场景
窗口操作的应用场景

day17：
streaming消费kafka的两种方式的概念、优缺点、区别
streaming消费kafka时怎么实现一次仅一次语义（消费数据的一致性）
Spark集群启动流程

day18：
你对jvm的理解（今晚一定要总结答案，明天必须默写出来）
描述stage划分过程，将重要的对象和方法也带出来

day19：
描述Spark Shuffle过程
手写代码用SparkSQL实现WordCount

侵权联系和免责声明

1.本站资源所有言论纯属用户个人意见，与本论坛立场无关。

2.本站所有资源收集于互联网，由用户分享，本站不享有任何版权，如有侵权请联系本站删除。

3.本站部分内容转载自其它网站，但并不代表本站赞同其观点和对其真实性负责。

4.如本帖侵犯到任何版权问题，请立即告知本站，本站将及时删除并致以最深的歉意。

侵权联系邮箱：2647756422@qq.com

本文地址: https://www.itstudy365e.com/thread-732-1-1.html

		自动登录	找回密码
密码			立即注册