更新时间: 试题数量: 购买人数: 提供作者:

有效期: 个月

章节介绍: 共有个章节

收藏
搜索
题库预览
目前,MLlib库默认采用(皮尔森相关系数)计算方法。 第二部分 判断题 安装Scala之前必须配置JDK。(  ) Scala语言是一种面向过程编程的语言。(  ) 在Scala中,使用关键字var声明变量,值是不可变的。(  ) 在Scala中定义变长数组时,需要导入可变数组包。(  ) Scala语言和Java语言一样,都有静态方法或静态字段。(  ) Spark诞生于洛桑联邦理工学院(  )的编程方法实验室。(  ) Spark比Hadoop计算速度快。(  ) 部署spark高可用集群不需要用到zookeeper服务。(  ) Spark master HA主从切换过程不会影响集群已有的作业运行。(  ) 集群上的任务是由执行器来调度的。(  ) RDD是一个可变、不可分区、里面的元素是可并行计算的集合。(  ) RDD采用了惰性调用,即在RDD的处理过程中,真正的计算发生在RDD的“行动”操作。(  ) 宽依赖是指每一个父RDD的partition(分区)最多被子RDD的一个partition使用。(  ) 如果一个有向图可以从任意顶点出发经过若干条边回到该点,则这个图就是有向无环图。(  ) 窄依赖是划分stage的依据。(  ) Spark SQL的前身是shark,shark最初是瑞士洛桑联邦理工学院的编程方法实验室研发的spark生态系统的组件之一。(  ) Spark SQL与Hive不兼容。(  ) 在Spark SQL中,若需要使用SQL风格操作,则需要提前将DataFrame注册成一张临时表。(  ) 在Spark SQL中,可以利用反射机制来推断包含特定类型对象的Schema,从而将已知数据结构的RDD转换成DataFrame。(  ) Spark SQL可以通过JDBC从关系数据库中读取数据的方式创建DataFrame,通过对DataFrame进行一系列的操作后,不可以将数据重新写入到关系数据库中。(  ) HBase起源于2006年Google发表的BigTable论文。(  ) HBase是基于行进行存储的。(  ) HBase中,若有多个HMaster节点共存,则所有HMaster都提供服务。(  ) StoreFile底层是以HFile文件的格式保存在HDFS上。(  ) 在HBase中,往HBase写数据的流程就是一个寻址流程。(  ) Kafka是由Twitter软件基金会开发的一个开源流处理平台。(  ) Kafka是专门为分布式高吞吐量系统而设计开发的。(  ) Consumer是数据生产者,Producer是数据消费者。(  ) Kafka Streams是一套处理分析Kafka中存储数据客户端类库,处理完的数据不可以重新写回Kafka,但可以发送给外部存储系统。(  ) 在Kafka中,若想建立生产者和消费者互相通信,就必须提前创建一个“公共频道”,它就是主题(Topic)。(  ) Apache Spark Streaming是Apache公司非开源的实时计算框架。(  ) DStream的内部结构是由一系列连续的RDD组成,每个RDD都是一小段时间分离开来的数据集。(  ) Spark Streaming中,不可以通过RDD的转换算子生成新的DStream。(  ) 在Linux系统下执行nc-1k 9999命令启动服务端且监听socket服务。(  ) 在Spark Streaming中,DStream的输出操作是真正触发DStream上所有转换操作进行计算。(  ) 机器学习中的训练和预测过程可以看作人类的归纳和推测的过程。(  ) 本地向量分为密集向量和稀疏向量,密集向量是由两个并列的数组(索引、值)支持,而稀疏向量是由Double类型的数组支持。(  ) 标注点是一种带有标签的本地向量,通常用于无监督学习算法中。(  ) 逻辑回归又称为逻辑回归分析,是一种侠义的线性回归分析模型。(  ) 目前,最为流行的推荐系统所应用的算法是协同过滤,协同过滤通常用于推荐系统,这项技术是为了填补关联矩阵的缺失项,从而实现推荐效果。(  )
1 2