数据采集（填空题）_在线真题试卷与模拟练习_数据采集（填空题）

更新时间：试题数量：购买人数：提供作者：

有效期：个月

章节介绍：共有个章节

我的练习

我的错题
(0道)

我的收藏
(0道)

我的斩题
(0道)

我的笔记
(0道)

专项练习

顺序练习 0 / 0

随机练习 自定义设置练习量

题型乱序 按导入顺序练习

模拟考试 仿真模拟

题型练习 按题型分类练习

易错题 精选高频易错题

学习资料 考试学习相关信息

搜索

题库预览

101填空题共1分

如下命令启动Flume：
> cd c:\apache-flume-1.9.0-bin
> .\bin\flume-ng.cmd --conf ./conf --conf-file ./conf/kafka.conf --name a1 -property flume.root.logger=INFO,console

102填空题共2分

在kafka安装目录中启动Kafka服务：
. \bin\windows\ .\config\

103填空题共2分

通过urllib.request模块实现发送GET请求获取网页内容：
>>> import urllib.request
>>> response=urllib.request. ("http://www.baidu.com")
>>> html=
>>> print(html)

104填空题共3分

HDFS采用了结构模型，一个HDFS集群包括和。

105填空题共4分

数据清洗主要是对、、和进行处理。

106填空题共2分

计算机系统中的数据组织形式主要有两种，即和。

107填空题共1分

是构成信息的基本单位。

108填空题共3分

Hadoop包括三种安装模式、以及。

109填空题共1分

是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成部分。

110填空题共4分

典型的数据分析过程包括、、、等。

111填空题共1分

数据清洗按照实现方式，可以分为____和____。

删除HDFS中/user目录及其下面的文件命令是_______。

113填空题共1分

删除HDFS中/user/text.txt文件的命令是_______。

114填空题共3分

Hadoop包括三种安装模式____；____；____。

115填空题共1分

在爬取网页的时候，输出的信息中有时候会出现“抱歉，无法访问”等字眼，这就是禁止爬取，需要通过定制_____来解决。

116填空题共1分

BeautifulSoup 中，Tag对象或BeautifulSoup对象的________方法，可以使用CSS选择器的语法找到标签。

117填空题共1分

在Scrapy中，_______是用于定义如何从一个或多个网站抓取数据的类。

120填空题共1分

____是作业项之间带箭头的连接线，它定义了作业的执行路径。

121填空题共1分

每个Kettle作业由一个或多个____和连接作业项的____组成。

122填空题共2分

Kettle 的基本功能包括____管理和____管理。

1 2

更多题库