|
|
下载地址:
【课程目录】
day02:
声明一个数组,元素有1,2,3,4,5,6
用for、while将数组中的元素打印出来
至少用两种方法将数组中的奇数打印出来
day03:
创建一个Map,用不同的方式进行遍历
创建一个元组,获取元组中的值,遍历元组
集合里有多个数组,每个数组的长度相同,将每个数组的相同下标下的元素进行聚合。
例如:Seq(Array(2,3,4), Array(1,2,3), Array(4,5,6))
结果为:Array(7,10,13)
day04:
map和foreach的区别
map和flatMap的区别
有列表:List(1,2,3,4,5,6),分别用reduce和foldLeft实现所有元素的和
有列表:List(("java", 1),("scala", 2),("python", 3))
1)将List每个元素的第一个值拼接,将每个元素的第二个值相加,结果为:(javascalapython,6)
2)将List每个元素的第二个值进行聚合,结果为:6
day05:
手写Scala版的WordCount
有列表:List(1,2,3,4,5,6,7,8,9,10),
用aggregate实现该列表元素的个数和所有元素的和,结果为:(10, 55)
day07:
描述RDD的概念和特性
手写SparkWordCount
day08:
有用户访问日志数据access.log,求pv,uv
day09:
描述RDD的概念和特性
RDD的算子分两种,各有什么特性?
RDD的依赖分两种,怎么区分?
day10:
Stage划分过程
RDD的缓存的应用场景
检查点的应用场景和使用步骤
Spark的任务提交流程
day11:
写出下列代码的打印结果:
def joinRdd(sc:SparkContext) {
val name= Array((1,"spark"),(2,"flink"),(3,"hadoop"))
val score= Array((1,100),(2,90),(3,80))
val namerdd=sc.parallelize(name)
val scorerdd=sc.parallelize(score)
val result = namerdd.join(scorerdd)
result.collect.foreach(println);
}
((1, (spark, 100)), (2, (flink, 90)), (3, ....))
列出至少5个用于聚合的算子
reduceByKey、aggregate、aggregateByKey、reduce、foldByKey、countByKey、combineByKey
列出至少5个会发生shuffle的算子
byKey类的算子
重分区算子
join、cogroup
distinc
自定义排序的应用场景
day12:
Accumulator累加器的应用场景和特性以及使用过程
广播变量的应用场景
map和mapPartition区别和应用场景
foreach和foreachPartition区别和应用场景
flatMap和map区别和应用场景
day13:
DataFrame的概念
DataSet的概念
RDD、DataFrame、DataSet互相转换用到的方法
描述一下使用udf的流程
day14:
有数据文件test.txt
数据内容:
hello java hello
hello scala scala
hello python
....还有很多数据....
用SparkSQL求单词计数
将结果保存到MySQL
day15:
分区(partition)的作用?
segment的大小可以设置吗?
kafka的文件存储机制?
当consumer的数量发生变化时,会触发kafka的负载均衡,触发负载均衡的目的是什么?
如何消费已经被消费过的数据?
partition和consumer的数量关系?
生产者的分区策略?
day16:
手写Streaming应用程序,实现批次累加功能
transform的应用场景
窗口操作的应用场景
day17:
streaming消费kafka的两种方式的概念、优缺点、区别
streaming消费kafka时怎么实现一次仅一次语义(消费数据的一致性)
Spark集群启动流程
day18:
你对jvm的理解(今晚一定要总结答案,明天必须默写出来)
描述stage划分过程,将重要的对象和方法也带出来
day19:
描述Spark Shuffle过程
手写代码用SparkSQL实现WordCount
侵权联系和免责声明
1.本站资源所有言论纯属用户个人意见,与本论坛立场无关。
2.本站所有资源收集于互联网,由用户分享,本站不享有任何版权,如有侵权请联系本站删除。
3.本站部分内容转载自其它网站,但并不代表本站赞同其观点和对其真实性负责。
4.如本帖侵犯到任何版权问题,请立即告知本站,本站将及时删除并致以最深的歉意。
侵权联系邮箱:2647756422@qq.com
本文地址: https://www.itstudy365e.com/thread-732-1-1.html
|
|