大数据导论复习资料_在线真题试卷与模拟练习_大数据导论复习资料_考试宝

更新时间：试题数量：购买人数：提供作者：

有效期：个月

章节介绍：共有个章节

收藏

我的练习

我的错题
(0道)

我的收藏
(0道)

我的斩题
(0道)

我的笔记
(0道)

专项练习

顺序练习 0 / 0

随机练习 自定义设置练习量

题型乱序 按导入顺序练习

模拟考试 仿真模拟

题型练习 按题型分类练习

易错题 精选高频易错题

学习资料 考试学习相关信息

搜索

题库预览

| 项目 | 内容 | |------------|--------------------------------------------| | 相关产品 | Neo4j、OrientDB、InfoGrid、Infinite Graph、GraphDB | | 数据模型 | 图结构 | | 典型应用 | 可用于大量复杂、互连接、低结构化的图结构场合，如社交网络、推荐系统等 | | 优点 | 灵活性高，支持复杂的图算法，可用于构建复杂的关系图谱 | | 缺点 | 复杂性高，只能支持一定的数据规模 | | 使用者 | Adobe（Neo4j）、Cisco（Neo4j）、T-Mobile（Neo4j） |

Bigtable是一个分布式存储系统，利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据，使用谷歌分布式文件系统GFS作为底层数据存储系统，并采用Chubby提供协同服务管理，可以扩展到PB量级的数据和上千台机器，具备广泛应用性、可扩展性、高性能和高可用性等特点。

Bigtable具备以下特性： - 支持大规模海量数据，分布式并发数据处理效率极高；易于扩展且支持动态伸缩，适用于廉价设备；适合读操作，不适合写操作。【缺少答案，请补充】

HBase实际上是一个稀疏、多维、持久化存储的映射表，它采用行键（Row Key）、列族（Column Family）、列限定符（Column Qualifier）和时间戳（Timestamp）进行索引，每个值都是未经解释的字数组 1. 表：HBase用表组织数据 2. 行键：每个表由若干行组成，行由行键标识 3. 列族：表被分成多个列族，是基本访问控制单元 4. 列限定符：列族内数据通过列限定符（列）定位。 5. 单元格：由行键、列族、列限定符确定一个单元格。 6. 时间戳：每个单元格都保存着同一份数据的多个版本，这些版本采用时间戳进行索引

HBase的系统架构包括客户端、ZooKeeper服务器、Master主服务器、Region服务器

数据分析可分为广义的数据分析和狭义的数据分析，广义的数据分析包括狭义的数据分析和数据挖掘。是指用适当的方法对收集的数据进行分析，提取有用的信息和形成结论的过程。在广义的数据分析中，可以使用复杂的机器学习和数据挖掘算法，或者只使用一些简单的统计学分析方法，比如汇总求和，求平均值，求均方差等。狭义的数据分析是指根据分析目的，用适当的统计分析方法和工具对收集的数据进行处理与分析，提取有价值的信息，发挥数据的作用。

1.数据分析与数据挖掘：定义层面：数据挖掘是指从大量的数据中通过统计学，人工智能、机器学习等方法，挖掘未知的、且可能有价值的信息和知识的过程。作用层面：数据分析实现的三大作用：现状分析、原因分析、预测分析。数据分析的目标明确，先做假设然后通过数据分析来验证假设是否正确，从而得到相应的结论。数据挖掘只要侧重解决四类问题：分类、聚类、关联和预测方法层面：数据分析主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法，数据挖掘主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法。在结果层面：数据分析一般都是得到一个指标统计结果，如总和、平均值等，这些数据都需要与业务结合进行解读，才能发挥数据的价值与作用。数据挖掘则是输出模型或规则，并且可相应得到模型得分或标签。模型得分包括流失概率值、总得分、相似度、预测值等，标签包括高中低价值用户、流失与非流失、信用优良中差等。【缺少答案，请补充】

2.数据分析与数据处理数据分析过程通常会伴随着数据处理的发生（或者说伴随着大量数据计算），因此，数据分析和数据处理是一对关系紧密的概念。很多时候，二者是融合在一起的，很难割裂开来。也就是说，当用户在进行数据分析的时候，底层的计算机系统会根据数据分析任务的要求，使用程序进行大量的数据处理（或者说进行大量的数据计算）。例如，当用户进行决策树分析时，需要事先根据决策树算法编写分析程序；当分析开始以后，决策树分析程序就会从磁盘读取数据进行大量计算，最终给出计算结果（也就是决策树分析结果）。【缺少答案，请补充】

3.大数据处理与分析数据分析包含两个要素，即理论和技术。在理论层面，需要统计学、机器学习和数据挖掘等知识；在技术层面，需要单机分析工具（如SPSS、SAS等）、单机编程语言（如Python、R）以及大数据处理与分析技术（如MapReduce、Spark、Hive等）。数据分析可以是针对小规模数据的分析，也可以是针对大规模数据的分析（这时被称为大数据分析）。在大数据时代到来之前，数据分析主要以小规模的抽样数据为主，一般使用统计学、机器学习和数据挖掘的相关方法，以单机分析工具（如SPSS和SAS）或者单机编程（如Python、R）的方式来实现程序分析。但是，到了大数据时代，数据量爆炸式地增长，很多时候需要对规模巨大的全量数据进行分析。这时，单机工具和单机程序已经显得无能为力，就需要采用分布式技术，比如使用MapReduce、Spark或Flink编写分布式分析程序，借助于集群的多台机器进行并行数据处理分析。这个过程就被称为大数据处理与分析。【缺少答案，请补充】

机器学习和数据挖掘算法机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获得新的知识或技能，重新组织已有的知识结构，不断改善自身的性能。典型的机器学习和数据挖掘算法包括分类、聚类、分析回归、关联规则、协同过滤等。典型的分类方法包括决策树、朴素贝叶斯、支持向量机和人工神经网络等。协同过滤：基于用户（UserCF），基于物品（ItemCF），基于模型（ModelCF）【缺少答案，请补充】

| 大数据处理与分析技术类型 | 解决问题 | 代表产品 | |--------------------------|------------------------|------------------------------| | 批数据处理 | 针对大规模数据的批处理 | MapReduce、Spark | | 流技术 | 针对流数据的实时计算 | Flik、Storm、S4、SparkStreaming、Flume、Streams、Puma、DStream、SuperMario | | 图计算 | 针对大规模图结构数据的处理 | Pregel、SparkGraHx、Giraph、PowerGraph、Hame、GoldenOrb | | 查询分析计算 | 针对大规模数据的存储管理和查询分析 | Hive、Dremel、Cassandra、Impala |

大数据处理与分析代表产品 1.MapReduce简介谷歌在2003-2006年连续发表了3篇很有影响力的文章，分别阐述了GFS、MapReduce和Bigtable的核心思想。其中，MapReduce是谷歌的核心计算模型。MapReduce将复杂的、运行在大规模集群上的并行计算过程高度地抽象为两个函数：Map和Reduce，这两个函数及其核心思想都源自函数式编程语言。 MapReduce的工作流程大规模数据集的处理包括分布式存储和分布式计算两个核心环节。谷歌用分布式文件系统GFS实现分布式数据存储，用MapReduce实现分布式计算；而Hadoop则使用分布式文件系统HDFS实现分布式数据存储，用Hadoop MapReduce实现分布式计算。MapReduce的输入和输出都需要借助于分布式文件系统进行存储，这些文件被分存储到集群中的多个节点上。 2.Hive简介 Hive是一个基于Hadoop的数据仓库工具，可以对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理。Hive的学习门槛比较低，因为它提供了类似于关系数据库SQL的查询语言——HiveQL。当采用MapReduce作为执行引擎时，Hive可以通过HiveQL语句快速实现简单的MapReduce任务，而不必开发专门的MapReduce应用程序，因而十分适合数据仓库的统计分析。 Hive是一个构建在Hadoop之上的数据仓库工具，Hive在某种程度上可以看作用户编程接口，其本身并不存储和处理数据，而是依赖HDFS来存储数据，依赖MapReduce（或者Tez、Spark）来处理数据。Hive定义了简单的类似SQL的查询语言——HiveQL，它与大部分SQL语法兼容。当采用MapReduce作为执行引擎时，HiveQL语句可以快速实现简单的MapReduce任务，这样用户通过编写HiveQL语句就可以运行MapReduce任务，不必编写复杂的MapReduce应用程序。其系统架构主要由以下3个模块组成：用户接口模块、驱动模块以及元数据存储模块。对于Java开发工程师来说，就不必花费大量精力去记忆常见的数据运算与底层的MapReduce Java API的对应关系；对于数据库管理员来说，可以很容易地把原来构建在关系数据库上的应用程序移植到Hadoop平台上。所以说，Hive是一个可以有效、合理、直观地组织和使用数据的分析工具。 3.Impala：使用MapReduce来完成批量数据处理，而MapReduce是一个面向批处理的非实时计算框架，因此实时性不好，查询延迟较高，不能满足查询的实时交互性。Impala作为开源大数据分析引擎支持实时计算，它提供了与Hive类似的功能，并在性能上比Hive高3~30倍。Impala是由Cloudera开发的查询系统，它提供了SQL语义，能查询存储在Hadoop的HDFS和HBase上的PB量级海量数据，Impala最初是参照Premel系统进行设计的，Dremel系统是Google开发的交互式数据分析系统，可以2~3s分析PB量级的海量数据。所以，Impala也可以实现大数据的快速查询。 4.Spark：主要特点：运行速度快、容易使用、通用性强、运行模式多样 5.Flink：是一个针对数据和批处理的分布式计算框架，设计思想主要来源于Hadoop、MPP数据库、流计算系统等。Flink主要是由Java代码实现的，目前主要还是依靠开源社区的贡献而发展，Flink所要处理的主要场景是流数据，批数据只是流数据的一个特例而以。Flink可以支持本地的快速迭代计算和一些环形的迭代计算任务。

数据可视化简介：数据可视化是指将大型数据集中的数据以图形图像形式表示，并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示，大量的数据集构成数据图像，同时将数据的各个属性值以多维数据的形式表示，可以从不同的维度观察数据，从而对数据进行更深入的观察和分析。【缺少答案，请补充】

可视化的重要作用 1.观测、跟踪数据 2.分析数据 3.辅助理解数据 4.增强数据吸引力

| 图表 | 维度 | 应用场景 | |--------|--------|------------------------------| | 柱状图 | 二维 | 指定一个分析轴进行数据大小的比较，只需比较其中一维 | | 折线图 | 二维 | 按照时间序列分析数据的变化趋势，适用于较大的数据集 | | 饼图 | 二维 | 指定一个分析轴进行所占比例的比较，只适用于反映部分与整体的关系 | | 散点图 | 二维或三维 | 有两个维度需要比较 | | 气泡图 | 三维或四维 | 其中只有两个维度能够精确辨识 | | 雷达图 | 四维以上 | 数据点不超过6个 |

除了上述常见的图表以外，数据可视化还可以使用其他图表。 1.漏斗图。漏斗图适用于业务流程比较规范、周期长、环节多的流程分析，通过漏斗各环节业务数据的比较，能够直观地发现和说明问题所在。树图。树图是一种流行的、利用包含关系表达层次化数据的可视化方法，它能将事物或现象分解成树枝状，因此又称树状图或系统图。树图就是把要实现的目的与需要采取的措施或手段系统地展开并绘制成图，以明确问题的重点，寻找最佳手段或措施。 2.热力图。热力图以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示。它基于GIS（Geographic Information System，地理信息系统）坐标，用于显示人或物品的相对密度。 3.关系图。关系图是基于3D空间中的点线组合，再加以颜色、粗细等维度的修饰，适用于表征各节点之间的关系。词云。通过形成关键词云层或关键词渲染，对网络文本中出现频率较高的关键词给予视觉上的突出。 4.桑基图。桑基图也被称为桑基能量分流图或桑基能量平衡图，它是一种特定类型的流程图，图中延伸的分支的宽度对应数据流量的大小，通常用于能源、材料成分、金融等数据的可视化分析。 5.日历图。日历图是以日历为基本维度的、对单元格加以修饰的图表。

数据的概念

数据的类型

数据的组织形式

数据的使用