2025年大数据理论题库(1)_在线真题试卷与模拟练习_2025年大数据理论题库(1)_考试宝

更新时间：试题数量：购买人数：提供作者：

有效期：个月

章节介绍：共有个章节

收藏

我的练习

我的错题
(0道)

我的收藏
(0道)

我的斩题
(0道)

我的笔记
(0道)

专项练习

顺序练习 0 / 0

随机练习 自定义设置练习量

题型乱序 按导入顺序练习

模拟考试 仿真模拟

题型练习 按题型分类练习

易错题 精选高频易错题

学习资料 考试学习相关信息

搜索

题库预览

下面不属于Python特性的是(　　)。

下列关于注释的说法正确的是(　　)。

Series能够接收的数据类型不包括(D)。 14关于Series索引方式错误的是(D)。 15删除DataFrame数据的方法不包括(D)。 16关于索引对象，下列说法错误的是(C)。 17关于iloc的说法不正确的是(D)。 18merge函数用于主键合并，下列说法错误的是(D)。 19关于pandas库的文本操作，下列说法错误的是(B) 20关于时间相关类，下列说法错误的是(D)。 21下列pyplot模块的函数中，可以绘制散点图的是（D）。 22下列图表中，可以清晰地反映出各数据系列的百分比情况的是（C）。 23下列图表中，适用于比较跨类别数据的是 24下列pyplot模块的函数中，可以绘制直方图的是（B）。 25下列pyplot模块的函数中，可以绘制饼图的是（C）。 26关于Matplotlib的说法中，下列描述正确的是 27绘图时显示图例的命令是(B)。 28下列函数中，可以为图表设置图例的是（A）。 29下列参数中，调整后显示中文的是（C）。 30下列选项中，用于绘制双变量分布的函数是 31描述全校男女同学的比例关系，最好使用（D）。 32每调用一次add_subplot()方法会规划画布划分子图，且只会添加一个子图(A) 33Figure对象允许划分为多个绘图区域(A) 34散点图包含的数据点越少，比较的效果就会越好(B) 35如果希望一次性创建一组子图，则可以通过subplot(B)函数进行实现。 36直方图可以利用方块的高度来反映数据的差异(A) 37Figure对象可以理解为一张空白的画布，用于容纳图表的各种组件(A) 38pyplot模块中默认拥有一个Figure对象(A) 39在箱形图中超出上界和下界的值称为异常值(A) 40我们可以调用new(B)函数构建一张新的空白画布。 41ndarray对象的数据类型可以通过type()方法进行转换(B) 42如果两个数组的形状不同，则它们是无法执行算术运算的(B) 43NumPy数组不需要循环遍历，即可对每个元素执行批量的算术运算操作(A) 44如果希望创建一个数组，则只能用array()函数实现(B) 45sort()方法可以对任何轴上的数据进行排序(A) 46通过agg()方法进行聚合时只能接收单个函数(B) 47drop duplicated()方法可以删除重复值(B) 48Series和DataFrame都支持切片操作(A) 49在操作DataFrame对象时，可以通过指定索引名的方式获取数据(A) 50Pandas只有Series和DataFrame两种数据结构(B) 51如果把年份字符串作为索引使用，则可以获取到属于这一年的所有数据(A) 52下列选项中，关于分组聚合描述正确的是(ABC) 53下列关于apply()方法说法不正确的是(ABD) 54关于GroupBy对象，下列描述正确的是（ABD） 55关于数组统计运算，下列说法中正确的是(AB) 56下列关于多维数组切片的描述正确的是(ABC) 57下列关于groupby()方法的使用，描述不正确的是（BC） 58下列选项中，关于transform()方法描述不正确的是（BD）。 59下列选项中，属于agg()方法使用方式的是 60关于预处理中的数据合并，下列说法中错误的是（ABCD）。 61关于MapReduce的说法正确的是（D）。 62关于Hadoop MapReduce 分片 (spit)概念，下列说法不正确的是（D）。 63Hadoop组件在企业应用中，能用于数据挖掘的产品有（C）。 64关于MapReduce Shuffle过程合并（combine）操作，两个健值对 $$< "a",1>$$ 和 $$< "a",1>$$ 经过合并操作结果为（A）。 65关于MapReduce优点，下列说法不正确的是（D ）。 66在Spark生态组件中，哪个产品可用于基于实时数据流的数据处理（C）。 67Spark原生开发语言是（A）。 68在Spark生态组件中，哪个产品可用于复杂的批量数据处理。（A） 69在Spark生态组件中，哪个产品可用于基于历史数据的交互式查询。（B） 70Spark自带的资源管理框架是？（A） 71要查询wold_books表中所有书名中以“中国”开头的书籍的author，可用（D）语句。 72以下对hive中表数据操作描述正确的是（C）。 73Hive中的这条命令”ALTER TABLE employee ADDcolumns(columnlstring).”是什么含义？(C) 74Hive中以下操作不正确的是（D）。 75以下哪种不是Hive支持的数据类型（D）。 76“大数据”是指存储量超过100TB的数据集。(B) 77大数据分析可以从海量数据中发现趋势或者规律，具有很高的应用价值。(A) 78大数据与传统数据有着本质上的差别，因为大数据有专门的处理软件。(B) 79大数据最重要的特点是数据量大，噪声数据少，所以收集数据过程中要力求精确。(B) 80能够充分利用数据价值、先挖掘到数据价值的企业将会占领先机，不注重大数据等新兴技术的企业，将会落后甚至被淘汰。数据将成为最有价值的资产。(A) 81数据驱动的市场洞察与产品创新中，关键在于（C）。 82大数据助力供应链创新与优化，主要通过（ B）。 83基于大数据的商业模式创新不包括（B）。 84大数据促进企业组织创新与协同，体现在（ B）。 85联邦机器学习数据隐私保护的核心是（B）。 86图数据库与图计算主要适用于（B）场景。 87大数据与边缘计算融合的优势不包括（C）。 88数字经济推动传统农业现代化，不涉及（C）。 89大数据在教育行业的创新探索不包括（C）。 90Kettle 数据预处理与迁移中，数据源抽取可以连接的数据库不包括（C）。 91在Kettle数据预处理转换中，常用的操作不包括（C）。 92数据迁移和装载过程中，保证数据完整性的方法不包括（C）。 93Azkaban 任务调度系统的主要功能是（B）。 94数据仓库项目实践中，维度表的作用是（B）。 95分类算法中，以下不属于监督学习算法的是（D）。 96线性回归算法主要用于（B）。 97支持向量机线性分类器的核心思想是（A）。 98决策树分类方法中，选择划分属性的常用准则不包括（C）。 99深度学习项目案例中，常用的深度学习框架不包括（C）。 100机器学习实训中，评估模型性能的指标不包括（C）。 101Kettle中创建一个简单的转换流程，第一步通常是（C）。 102在数据仓库设计中，星型模型的特点是（A ）。 103分类算法应用时，过拟合问题产生的原因可能是（C）。 104线性回归模型训练时，优化目标通常是（A）。 105支持向量机在处理非线性可分数据时，通常采用（B）方法。 106决策树构建过程中，节点分裂的依据是（B ）。 107深度学习中，卷积神经网络（CNN）主要用于（B）。 108机器学习算法中，集成学习的主要目的是（C ）。 109在Kettle数据迁移中，处理数据类型不匹配的方法不包括（B）。 110数据仓库中，事实表通常包含（B）。 111大数据背景下提升产业创新效能的路径包括（ ABCD）。 112大数据技术新前沿领域有（ABCD）。 113数字经济助力传统行业转型的表现有（ABC）。 114Kettle数据预处理与迁移的步骤包括（ABC）。 115数据仓库项目实践中，常用的数据建模方法有（ABC）。 116机器学习算法中，常见的分类算法有（ABCD）。 117线性回归算法的应用场景包括（AB）。 118支持向量机在实际应用中，常用的核函数有（ABCD）。 119决策树分类方法的优点有（AB）。 120深度学习项目中，常用的神经网络结构有（ ABCD）。 121大数据促进企业组织创新就是要完全取消管理层次。（B） 122数字经济助力传统行业转型，只需要关注技术引进，不需要考虑市场需求。（B） 123大数据与边缘计算融合会导致数据处理精度下降。（A） 124Kettle可以从多种数据源抽取数据，包括数据库和文件系统。（B） 125Azkaban任务调度系统只能调度单个任务，不能调度任务流。（B） 126数据仓库项目实践中，事实表和维度表之间是多对多的关系。（B） 127分类算法中，K-均值聚类是一种有监督学习算法。（B） 128线性回归算法只能处理线性关系的数据。（B） 129支持向量机线性分类器可以直接处理非线性可分的数据。（B）

新质生产力的形成与以下哪项因素关联最紧密？(　　)

新质生产力在国家发展战略中的地位是(　　)。

大数据市场竞争格局中，以下哪类企业通常是主要参与者？(　　)

大数据在金融行业的创新应用不包括(　　)。

大数据行业发展面临的挑战不包括(　　)。

企业数字化转型中，数据中台的主要作用是(　　)。

大数据技术创新带来的新应用场景不包括(　　)。

新一代信息技术产业不包含以下哪个领域？(　　)

大数据在医疗行业的创新实践可体现在(　　)。

Linux操作系统中，用于解压文件的常用命令是(　　)。

在文本编辑器中，以下哪个功能可以快速查找指定内容？(　　)

Hadoop 集群搭建中，HDFS 的主要功能是(　　)。

HDFS核心设计原理不包括(　　)。

Python数据分析中，常用的库不包括(　　)。

在DataFrame结构化数据中，用于查看数据基本信息的方法是(　　)。

数据清洗预处理中，处理缺失值的方法不包括(　　)。

Python 绘制图表时，设置图表标题的常用代码是(　　)。