找回密码
 立即注册
查看: 26|回复: 0

2019好程序员Spark教程【11.2GB】

[复制链接]

478

主题

14

回帖

89万

积分

【永久VIP】

积分
894627
发表于 7 天前 | 显示全部楼层 |阅读模式

下载地址:
游客,如果您要查看本帖隐藏内容请回复

【课程目录】

day02:
声明一个数组,元素有1,2,3,4,5,6
用for、while将数组中的元素打印出来
至少用两种方法将数组中的奇数打印出来

day03:
创建一个Map,用不同的方式进行遍历
创建一个元组,获取元组中的值,遍历元组
集合里有多个数组,每个数组的长度相同,将每个数组的相同下标下的元素进行聚合。
        例如:Seq(Array(2,3,4), Array(1,2,3), Array(4,5,6))
        结果为:Array(7,10,13)


day04:
map和foreach的区别
map和flatMap的区别
有列表:List(1,2,3,4,5,6),分别用reduce和foldLeft实现所有元素的和
有列表:List(("java", 1),("scala", 2),("python", 3))
        1)将List每个元素的第一个值拼接,将每个元素的第二个值相加,结果为:(javascalapython,6)
        2)将List每个元素的第二个值进行聚合,结果为:6


day05:
手写Scala版的WordCount
有列表:List(1,2,3,4,5,6,7,8,9,10),
用aggregate实现该列表元素的个数和所有元素的和,结果为:(10, 55)

day07:
描述RDD的概念和特性
手写SparkWordCount


day08:
有用户访问日志数据access.log,求pv,uv

day09:
描述RDD的概念和特性
RDD的算子分两种,各有什么特性?
RDD的依赖分两种,怎么区分?

day10:
Stage划分过程
RDD的缓存的应用场景
检查点的应用场景和使用步骤
Spark的任务提交流程

day11:
写出下列代码的打印结果:
def joinRdd(sc:SparkContext) {
        val name= Array((1,"spark"),(2,"flink"),(3,"hadoop"))
        val score= Array((1,100),(2,90),(3,80))
        val namerdd=sc.parallelize(name)
        val scorerdd=sc.parallelize(score)
        val result = namerdd.join(scorerdd)
        result.collect.foreach(println);
}
((1, (spark, 100)), (2, (flink, 90)), (3, ....))

列出至少5个用于聚合的算子
reduceByKey、aggregate、aggregateByKey、reduce、foldByKey、countByKey、combineByKey

列出至少5个会发生shuffle的算子
byKey类的算子
重分区算子
join、cogroup
distinc

自定义排序的应用场景



day12:
Accumulator累加器的应用场景和特性以及使用过程
广播变量的应用场景
map和mapPartition区别和应用场景
foreach和foreachPartition区别和应用场景
flatMap和map区别和应用场景

day13:
DataFrame的概念
DataSet的概念
RDD、DataFrame、DataSet互相转换用到的方法
描述一下使用udf的流程


day14:
有数据文件test.txt
数据内容:
hello java hello
hello scala scala
hello python
....还有很多数据....
用SparkSQL求单词计数
将结果保存到MySQL


day15:
分区(partition)的作用?
segment的大小可以设置吗?
kafka的文件存储机制?
当consumer的数量发生变化时,会触发kafka的负载均衡,触发负载均衡的目的是什么?
如何消费已经被消费过的数据?
partition和consumer的数量关系?
生产者的分区策略?

day16:
手写Streaming应用程序,实现批次累加功能
transform的应用场景
窗口操作的应用场景


day17:
streaming消费kafka的两种方式的概念、优缺点、区别
streaming消费kafka时怎么实现一次仅一次语义(消费数据的一致性)
Spark集群启动流程


day18:
你对jvm的理解(今晚一定要总结答案,明天必须默写出来)
描述stage划分过程,将重要的对象和方法也带出来


day19:
描述Spark Shuffle过程
手写代码用SparkSQL实现WordCount



您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|每日学IT论坛 |网站地图

GMT+8, 2026-4-9 17:24

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表