单选题 在Spark集群中,_________进程负责向集群管理器申请资源。( )
A、Driver
B、Executor
C、Master
D、Worker
单选题 Spark SQL中,_________操作会触发实际计算。( )
A、select("name")
B、ds.filter(col("age") > 18
C、ds.orderby()
单选题 在Spark MLlib中,_________算法不能处理分类任务。( )
A、
逻辑回归(LogistiRegression)
C、
K-均值聚类(K-Means Clustering)
D、D.随机森林(Random Forest)
单选题 关于RDD的描述,正确的是_________。( )
A、RDD是一个可变的分布式数据集合
B、RDD支持两种类型的操作:转换操作和行动操作
C、RDD不可以被持久化到磁盘
D、RDD是Spark中唯一的数据抽象
判断题 Spark的DAGScheduler负责将DAG分解为Stage,TASKScheduler负责将Stage分解为Task。
单选题 RDD的持久化级别不包括_________。( )
A、MEMORY_ONLY
B、CPU_ONLY
C、MEMORY_AND_DISK
D、DISK_ONLY
判断题 在Spark的YARN模式下,NodeManager负责管理每个任务的资源分配。
单选题 _________是Spark相比Hadoop的主要优势。( )
A、更强大的存储能力
B、更快的计算速度
C、更高的数据安全性
D、更低的硬件成本