填空题 当为RDD设置了MEMORY_AND_DISK的持久化级别后,数据会优先尝试保存在计算节点的内存中。如果节点的内存空间不足以容纳所有分区数据,那么超出的分区将会被自动溢出到______上进行存储。

下载APP答题
由4l***6v提供 分享 举报 纠错

相关试题

单选题 以下哪个操作会立即触发Spark作业的执行?

A、filter()
B、map()
C、take()
D、groupByKey()

单选题 关于RDD的惰性计算特性,以下描述正确的是?

A、RDD的转换操作会立即执行并返回结果
B、只有调用行动操作时,才会触发实际的计算任务执行
C、惰性计算指的是RDD的数据可以随时被修改
D、使用cache()方法会立即触发RDD的持久化计算

单选题 Spark当前推荐的实时流处理模块是?

A、Spark Streaming (基于DStream)
B、Spark Structured Streaming
C、Spark RealTime Processing
D、Spark Continuous Processing

单选题 DataFrame与RDD的主要区别在于?

A、DataFrame是单机数据结构,而RDD是分布式的
B、DataFrame包含数据的结构信息,而RDD不包含
C、RDD支持SQL查询,而DataFrame不支持
D、DataFrame的性能始终优于RDD

单选题 读取JSON文件到DataFrame的正确方式是?

A、spark.read("json").load("path")
B、spark.load.json("path")
C、spark.read.jsonFile("path")
D、spark.read.json("path")

单选题 在Spark中,如果需要将RDD数据缓存到内存和磁盘的混合存储级别,应该使用哪个方法?

A、rdd.store(StorageLevel.MEMORY_AND_DISK)
B、rdd.persist(StorageLevel.MEMORY_AND_DISK)
C、rdd.cache(StorageLevel.MEMORY_AND_DISK)
D、rdd.save(StorageLevel.MEMORY_AND_DISK)

单选题 Spark的容错机制主要依靠?

A、数据多副本存储和任务重试机制
B、血缘关系和检查点机制
C、仅通过数据备份实现容错
D、容错功能只对Driver程序有效

单选题 在Spark SQL中创建临时视图的正确方法是?

A、df.createTempView("view_name")
B、df.createPersistentView("view_name")
C、spark.createTempView(df, "view_name")
D、df.createOrReplaceTempView("view_name")