简答题 请对比Spark与MapReduce的区别,并说明Spark持久化的原因、作用,流数据的特征,以及编写Spark Streaming程序的基本步骤

下载APP答题
由4l***6v提供 分享 举报 纠错

相关试题

单选题 Spark当前推荐的实时流处理模块是?

A、Spark Streaming (基于DStream)
B、Spark Structured Streaming
C、Spark RealTime Processing
D、Spark Continuous Processing

单选题 在Spark SQL中创建临时视图的正确方法是?

A、df.createTempView("view_name")
B、df.createPersistentView("view_name")
C、spark.createTempView(df, "view_name")
D、df.createOrReplaceTempView("view_name")

单选题 以下哪个操作会立即触发Spark作业的执行?

A、filter()
B、map()
C、take()
D、groupByKey()

单选题 在Spark中,如果需要将RDD数据缓存到内存和磁盘的混合存储级别,应该使用哪个方法?

A、rdd.store(StorageLevel.MEMORY_AND_DISK)
B、rdd.persist(StorageLevel.MEMORY_AND_DISK)
C、rdd.cache(StorageLevel.MEMORY_AND_DISK)
D、rdd.save(StorageLevel.MEMORY_AND_DISK)

单选题 Spark的容错机制主要依靠?

A、数据多副本存储和任务重试机制
B、血缘关系和检查点机制
C、仅通过数据备份实现容错
D、容错功能只对Driver程序有效

单选题 读取JSON文件到DataFrame的正确方式是?

A、spark.read("json").load("path")
B、spark.load.json("path")
C、spark.read.jsonFile("path")
D、spark.read.json("path")

单选题 关于RDD的惰性计算特性,以下描述正确的是?

A、RDD的转换操作会立即执行并返回结果
B、只有调用行动操作时,才会触发实际的计算任务执行
C、惰性计算指的是RDD的数据可以随时被修改
D、使用cache()方法会立即触发RDD的持久化计算

单选题 DataFrame与RDD的主要区别在于?

A、DataFrame是单机数据结构,而RDD是分布式的
B、DataFrame包含数据的结构信息,而RDD不包含
C、RDD支持SQL查询,而DataFrame不支持
D、DataFrame的性能始终优于RDD