请对比Spark与MapReduce的区别，并说明Spark持久化的原因 - 考试宝

简答题请对比Spark与MapReduce的区别，并说明Spark持久化的原因、作用，流数据的特征，以及编写Spark Streaming程序的基本步骤

下载APP答题

由4l***6v提供分享举报纠错

相关试题

单选题 Spark当前推荐的实时流处理模块是？

A、Spark Streaming (基于DStream)

B、Spark Structured Streaming

C、Spark RealTime Processing

D、Spark Continuous Processing

单选题在Spark SQL中创建临时视图的正确方法是？

A、df.createTempView("view_name")

B、df.createPersistentView("view_name")

C、spark.createTempView(df, "view_name")

D、df.createOrReplaceTempView("view_name")

单选题以下哪个操作会立即触发Spark作业的执行？

A、filter()

B、map()

C、take()

D、groupByKey()

单选题在Spark中，如果需要将RDD数据缓存到内存和磁盘的混合存储级别，应该使用哪个方法？

A、rdd.store(StorageLevel.MEMORY_AND_DISK)

B、rdd.persist(StorageLevel.MEMORY_AND_DISK)

C、rdd.cache(StorageLevel.MEMORY_AND_DISK)

D、rdd.save(StorageLevel.MEMORY_AND_DISK)

单选题 Spark的容错机制主要依靠？

A、数据多副本存储和任务重试机制

B、血缘关系和检查点机制

C、仅通过数据备份实现容错

D、容错功能只对Driver程序有效

单选题读取JSON文件到DataFrame的正确方式是？

A、spark.read("json").load("path")

B、spark.load.json("path")

C、spark.read.jsonFile("path")

D、spark.read.json("path")

单选题关于RDD的惰性计算特性，以下描述正确的是？

A、RDD的转换操作会立即执行并返回结果

B、只有调用行动操作时,才会触发实际的计算任务执行

C、惰性计算指的是RDD的数据可以随时被修改

D、使用cache()方法会立即触发RDD的持久化计算

单选题 DataFrame与RDD的主要区别在于？

A、DataFrame是单机数据结构,而RDD是分布式的

B、DataFrame包含数据的结构信息,而RDD不包含

C、RDD支持SQL查询,而DataFrame不支持

D、DataFrame的性能始终优于RDD