Hadoop_在线真题试卷与模拟练习_Hadoop_考试宝

更新时间：试题数量：购买人数：提供作者：

有效期：个月

章节介绍：共有个章节

收藏

我的练习

我的错题
(0道)

我的收藏
(0道)

我的斩题
(0道)

我的笔记
(0道)

专项练习

顺序练习 0 / 0

随机练习 自定义设置练习量

题型乱序 按导入顺序练习

模拟考试 仿真模拟

题型练习 按题型分类练习

易错题 精选高频易错题

学习资料 考试学习相关信息

搜索

题库预览

目前，MLlib库默认采用（皮尔森相关系数）计算方法。第二部分判断题安装Scala之前必须配置JDK。(　　) Scala语言是一种面向过程编程的语言。(　　) 在Scala中，使用关键字var声明变量，值是不可变的。(　　) 在Scala中定义变长数组时，需要导入可变数组包。(　　) Scala语言和Java语言一样，都有静态方法或静态字段。(　　) Spark诞生于洛桑联邦理工学院(　　)的编程方法实验室。(　　) Spark比Hadoop计算速度快。(　　) 部署spark高可用集群不需要用到zookeeper服务。(　　) Spark master HA主从切换过程不会影响集群已有的作业运行。(　　) 集群上的任务是由执行器来调度的。(　　) RDD是一个可变、不可分区、里面的元素是可并行计算的集合。(　　) RDD采用了惰性调用，即在RDD的处理过程中，真正的计算发生在RDD的“行动”操作。(　　) 宽依赖是指每一个父RDD的partition（分区）最多被子RDD的一个partition使用。(　　) 如果一个有向图可以从任意顶点出发经过若干条边回到该点，则这个图就是有向无环图。(　　) 窄依赖是划分stage的依据。(　　) Spark SQL的前身是shark，shark最初是瑞士洛桑联邦理工学院的编程方法实验室研发的spark生态系统的组件之一。(　　) Spark SQL与Hive不兼容。(　　) 在Spark SQL中，若需要使用SQL风格操作，则需要提前将DataFrame注册成一张临时表。(　　) 在Spark SQL中，可以利用反射机制来推断包含特定类型对象的Schema，从而将已知数据结构的RDD转换成DataFrame。(　　) Spark SQL可以通过JDBC从关系数据库中读取数据的方式创建DataFrame，通过对DataFrame进行一系列的操作后，不可以将数据重新写入到关系数据库中。(　　) HBase起源于2006年Google发表的BigTable论文。(　　) HBase是基于行进行存储的。(　　) HBase中，若有多个HMaster节点共存，则所有HMaster都提供服务。(　　) StoreFile底层是以HFile文件的格式保存在HDFS上。(　　) 在HBase中，往HBase写数据的流程就是一个寻址流程。(　　) Kafka是由Twitter软件基金会开发的一个开源流处理平台。(　　) Kafka是专门为分布式高吞吐量系统而设计开发的。(　　) Consumer是数据生产者，Producer是数据消费者。(　　) Kafka Streams是一套处理分析Kafka中存储数据客户端类库，处理完的数据不可以重新写回Kafka，但可以发送给外部存储系统。(　　) 在Kafka中，若想建立生产者和消费者互相通信，就必须提前创建一个“公共频道”，它就是主题（Topic）。(　　) Apache Spark Streaming是Apache公司非开源的实时计算框架。(　　) DStream的内部结构是由一系列连续的RDD组成，每个RDD都是一小段时间分离开来的数据集。(　　) Spark Streaming中，不可以通过RDD的转换算子生成新的DStream。(　　) 在Linux系统下执行nc-1k 9999命令启动服务端且监听socket服务。(　　) 在Spark Streaming中，DStream的输出操作是真正触发DStream上所有转换操作进行计算。(　　) 机器学习中的训练和预测过程可以看作人类的归纳和推测的过程。(　　) 本地向量分为密集向量和稀疏向量，密集向量是由两个并列的数组（索引、值）支持，而稀疏向量是由Double类型的数组支持。(　　) 标注点是一种带有标签的本地向量，通常用于无监督学习算法中。(　　) 逻辑回归又称为逻辑回归分析，是一种侠义的线性回归分析模型。(　　) 目前，最为流行的推荐系统所应用的算法是协同过滤，协同过滤通常用于推荐系统，这项技术是为了填补关联矩阵的缺失项，从而实现推荐效果。(　　)

scala的语言特性：(　　)(　　)(　　)(　　)(　　)

Scala数据类型层级结构的底部有两个数据类型，分别是(　　)和(　　)

声明变量的关键字：(　　)和(　　)。

获取元组的值是通过(　　)来获取的。

模式匹配是由关键词(　　)和(　　)组成的。

spark生态系统包括（Spark Core、）（Spark SQL、）（Spark Streaming、）(　　)(　　)及(　　)

spark计算框架的特点：(　　)(　　)(　　)(　　)

spark 的部署模式有(　　).spark集群的部署模式有(　　)(　　)(　　)

启动spark集群的命令：(　　)

spark集群的运行架构由(　　)（Cluster Manager,）(　　)

RDD是(　　)的一个抽象概念，也是一个(　　)(　　)数据结构

RDD的操作主要分为(　　)和(　　)

RDD的依赖关系有(　　)和(　　)

RDD的分区方式有(　　)和(　　)

RDD的容错方式有(　　)和(　　)

Spark SQL是Spark用来(　　)

Spark要想很好的支持SQL，就需要完成(　　)、(　　)、(　　)三大过程。

Spark SQL作为分布式SQL查询引擎，让用户可以通过(　　)（DataFrames API）和（Datasets API） 3种方式来实现对结构化数据的处理。

Catalyst优化器在执行计划生成和优化工作时离不开它内部的五大组件，分别是(　　)（Analyze 、）（ptimizer 、）(　　) 和(　　)

1 2