[计算机类试卷]软件水平考试（中级）数据库系统工程师上午（基础知识）试题章节练习试卷6及答案与解析.doc

资源描述

1、软件水平考试（中级）数据库系统工程师上午（基础知识）试题章节练习试卷 6及答案与解析 1 有关联机分析处理 (OLAP)与联机事务处理 (OLTP)的正确描述是 (1)。（ A） OLAP面向操作人员， OLTP面向决策人员（ B） OLAP使用历史性的数据， OLTP使用当前数据（ C） OLAP经常对数据进行插入、删除等操作，而 OLTP仅对数据进行汇总和分析（ D） OLAP不会从已有数据中发掘新的信息，而 OLTP可以 2 下面描述正确的是 (2)。（ A）数据仓库是从数据库中导入大量的数据，并对结构和存储进行组织以提高查询效率（ B）使用数据仓库的目的在于对已有数据进行

2、高速的汇总和统计（ C）数据挖掘是采用适当的算法，从数据仓库的海量数据中提取潜在的信息和知识（ D） OLAP技术为提高处理效率，必须绕过 DBMS直接对物理数据进行读取和写入 3 数据仓库通过数据转移从多个数据源中提取数据，为了解决不同数据源格式上的不统一，需要进行 (3)操作。（ A）简单转移（ B）清洗（ C）集成（ D）聚集和概括 4 不常用做数据挖掘的方法是 (4)。（ A）人工神经网络（ B）规则推导（ C）遗传算法（ D）穷举法 5 下列关于数据挖掘的描述，正确的是 (5)。（ A）数据挖掘可以支持人们进行决策（ B）数据挖掘可以对任何数据进行（ C）

3、数据挖掘与机器学习是同一的（ D）数据来源质量对数据挖掘结果的影响不大 6 OLAP与 OLTP的区别是 (6)。（ A） OLAP针对数据库， OLTP针对数据仓库（ B） OLAP要求处理影响时间快， OLTP要求响应时间合理（ C） OLAP主要用于更新事务， OLTP用于分析数据（ D） OLAP面向决策人员， OLTP面向操作人员 7 数据仓库与操作型数据库之间的主要区别是 (7)。（ A）数据仓库没有概念模型（ B）数据仓库没有逻辑模型（ C）数据仓库没有物理模型（ D）数据仓库在物理实现上对 I/O要求更高 8 数据挖掘的目的在于 (8)。（ A）从已知的大

4、量数据中统计出详细的数据（ B）从已知的大量数据中发现潜在的规则（ C）对大量数据进行归类整理（ D）对大量数据进行汇总统计 9 推进游标的指令是 (9)。（ A） OPEN （ B） CLOSE （ C） FETCH （ D） DECLARE 10 对含有 BLOB型数据 (如图片，声音 )的关系模式，从优化的角度考虑，应采用的设计方案是 (10)。（ A）将 BLOB字段与关系的码独立为一张表（ B）将 BLOB字段独立为一张表（ C）对已满足规范化要求的表不做分解（ D）将 BLOB对象作为文件存储 11 从结构的角度看，数据仓库有三种模型：企业仓库、 (11)和虚拟仓

5、库。（ A）用户仓库（ B）产品仓库（ C）关系型 OLAP （ D）数据集市 12 数据仓库系统通常采用 3层的体系结构，底层为数据仓库服务器，中间层为(12)，顶层为前端工具。（ A）应用服务器（ B） OLAP服务器（ C） OLTP服务器（ D） ODS 13 假定每一车次具有唯一的始发站和终点站。如果实体 “列车时刻表 ”属性为车次、始发站、发车时间、终点站、到达时间，该实体的主键是 (2)；如果实体 “列车运行表 ”属性为车次、日期、发车时间、到达时间，该实体的主键是 (3)。通常情况下，上述 “列车时刻表 ”和 “列车运行表 ”两实体间 (4)联系。（ A）车次

6、 B）始发站（ C）发车时间（ D）车次，始发站（ A）车次（ B）始发站（ C）发车时间（ D）车次，日期（ A）不存在（ B）存在一对一（ C）存在一对多（ D）存在多对多软件水平考试（中级）数据库系统工程师上午（基础知识）试题章节练习试卷 6答案与解析 1 【正确答案】 B 【试题解析】联机分析处理 (OLAP)与联机事务处理 (OLTP)的主要区别如下。 (1)所面向的用户和系统： OLTP面向客户， OLAP面向市场。 (2)数据内容： OLTP管理当前数据， OLAP管理大量历史数据。 (3)数据库设计： OLTP采用 E-R模型和面向应用的数据库设计，

7、 OLAP采用星型模式或雪花模式和面向主题的数据库设计。 (4)视图： OLTP 主要关注企业内部当前数据， OLAP常跨企业，由多个数据源集成。 (5)访问模式： OLTP的访问主要由原子事务组成，需要并发控制和恢复机制， OLAP的访问大部分都是只读操作。 2 【正确答案】 C 【试题解析】按照 W. H. Inmon 这位数据仓库权威的说法， “数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理部门的决策过程 ”。这个简短而又全面的定义指出了表明数据仓库主要特征的四个关键词：面向主题的、集成的、时变的、非易失的，将数据仓库与其他数据存储系统 (如关系数据库系统、事务处

8、理系统和文件系统 )区别开来。建立数据仓库的目的主要为了支持管理决策，数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据，经过加工转换成有规律信息之后，再供管理人员进行分析使用。数据挖掘是指应用一系列技术从大型数据库或数据仓库中提取人们感兴趣的信息和知识，这些知识或信息是隐含的，事先未知而潜在有用的，提取的知识表示为概念、规则、规律、模式等形式。 3 【正确答案】 B 【试题解析】构建数据仓库的重要一环就是用户从数据源抽取山所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。 4 【正确答案】 D 【试题解析】数据挖掘是一类深层次的数据分

9、析。常见和应用最广泛的数据挖掘方法如下。 (1)决策树决策树方法是指利用信息论中的互信息 (信息增益 )寻找数据库中具有最大信息量的属性字段，建立决策树的一个结点，再根据该属性字段的不同取值建立树的分支；在每个分支子集中重复建立树的下层结点和分支的过程。国际上最早的、也是最有影响的决策树方法是 Quiulan 研究的 ID3方法。 (2)神经网络神经网络方法是指模拟人脑神经元结构，完成类似统计学中的判别、回归、聚类等功能，神经网络是一种非线性的模型，主要有三种神经网络模型：前馈式网络、反馈式网络和自组织网络。人工神经网络最大的长处是可以自动地从数据中学习，形成知识，这些知识有些是我们过去

10、未曾发现的，因此它具有较强的创新性。神经网络的知识体现在网络连接的权值上，神经网络的学习主要表现在神经网络权值的逐步计算上。 (3)遗传算法遗传算法是模拟生物进化过程的算法，它由三个基本过程组成：繁殖 (选择 )、交叉 (重组 )、变异 (突变 )。采用遗传算法可以产生优良的后代，经过若干代的遗传，将得到满足要求的后代，即问题得解。 (4)关联规则挖掘算法关联规则是描述数据之间存在关系的规则，形式为 “A1A2AnB1B2Bn” 。一般分为两个步骤：求出大数据项集；用大数据项集产生关联规则。除了上述的常用方法外，还有粗集方法、模糊集合方法、 Bayesian Belief Netord

11、s、最邻近算法 (k-nearest neighbors method(kNN)等。无论采用哪种技术完成数据挖掘，从功能上可以将数据挖掘的分析方法划分为四种，即关联分析 (Associations)、序列模式分析 (Sequential Patterns)、分类分析(Classifiers)和聚类分析 (Clustering)。 (1)关联分析关联分析的目的是为了挖掘出隐藏在数据间的相互关系。若设 R=A1，A2，， AP为 0， 1域上的属性集， r为 R上的一个关系，关于 r的关联规则表示为 XB ，其中 X R， B R，且 XB=f。关联规则的矩阵形式为：矩阵 r中，如果在行

12、X的每一列为 1，则行 B中各列趋向于为 1。在进行关联分析的同时还需要计算两个参数，最小置信度 (Confidence)和最小支持度 (Support)。前者用以过滤掉可能性过小的规则，后者则用来表示这种规则发生的概率，即可信度。 (2)序列模式分析序列模式分析的目的也是为了挖掘出数据之间的联系，但它的侧重点在于分析数据间的前后关系 (因果关系 )。例如，将序列模式分析运用于商业，经过分析，商家可以根据分析结果发现客户潜在的购物模式，发现顾客在购买一种商品的同时经常购买另一种商品的可能性。在进行序列模式分析时也应计算置信度和支持度。 (3)分类分析分类分析时首先为每一个记录赋予一个标记

13、 (一组具有不同特征的类别 )，即按标记分类记录，然后检查这些标定的记录，描述出这些记录的特征。这些描述可能是显式的，如一组规则定义；也可能是隐式的，如一个数学模型或公式。 (4)聚类分析聚类分析法是分类分析法的逆过程，它的输入集是一组未标定的记录，即输入的记录没有做任何处理。目的是根据一定的规则，合理地划分记录集合，并用显式或隐式的方法描述不同的类别。在实际应用的数据挖掘系统中，上述四种分析方法有着不同的适用范围，因此经常被综合运用。 5 【正确答案】 A 【试题解析】数据挖掘是一种技术，它将传统的数据分析方法与处理大量数据的复杂算法相结合。数据挖掘为探查和分析新的数据类型及用新方

14、法分析旧有数据类型提供了令人振奋的机会。数据挖掘技术可以用来支持广泛的商务智能应用，如顾客分析、定向营销、工作流管理、商店分布和欺诈检测等。数据挖掘的结果可以辅助人们进行决策支持。并非所有的信息发现任务都被视为数据挖掘。例如，使用数据库管理系统查找个别的记录，或通过因特网的搜索引擎查找特定的Web 页面，则是信息检索 (information retrieval)领域的任务。虽然这些任务是重要的，可能涉及使用复杂的算法和数据结构，但是它们主要依赖于传统的计算机科学技术和数据的明显特征来创建索引结构，从而有效地组织和检索信息。尽管如此，数据挖掘技术也已用来增强信息检索系统的能力。数据挖掘利用

15、了来自如下一些领域的思想： (1)来自统计学的抽样、估计和假设检验， (2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想，这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地，需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能 (并行 )计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据，并且当数据不能集中到一起处理时更至关重要。数据挖掘任务分为下面两大类： (1)预测任务。这些任务的目标是根据其他属性的值，预测特定属性的值。被预测的属性一般称目标变

16、量 (target variable)或因变量 (dependent variable)，而用来做预测的属性称说明变量 (explanatory variable)或自变量 (independent variable)。 (2)描述任务。这里，目标是导出概括数据中潜在联系的模式 (相关、趋势、聚类、轨迹和异常 )。本质上，描述性数据挖掘任务通常是探查性的，并日常常需要后处理技术验证和解释结果。 6 【正确答案】 D 【试题解析】 OLAP(Online Analytical Processing，联机分析处理 )通常用于对数据仓库进行数据挖掘； OLTP(Online Transaction

17、 Procession，联机事务处理 )是面向事务程序的执行，通常对应密集型更新事务程序，应用于对数据库的操作，故选项 A错误； OLAP对响应时间没有严格要求，而 OLTP面向具体业务，对时效要求较高，故选项 B 错误；由 OLAP及 OLTP定义，选项 C错误；OLAP用于数据挖掘以提供决策支持， OLTP用于处理具体业务，故选项 D正确。 7 【正确答案】 D 【试题解析】数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。数据仓库，英文名称为 Data Warehouse，可简写为DW。数据仓库是一个过程而不是一个项目。数据仓库系统是一个信息提供平台

18、它从业务处理系统获得数据，主要以星型模型和雪花模型进行数据组织，并为用户提供各种手段从数据中获取信息和知识。从功能结构化分，数据仓库系统至少应该包含数据获取 (Data Acquisition)、数据存储 (Data Storage)、数据访问 (Data Access)三个关键部分。根据数据仓库概念的含义，数据仓库拥有以下 4个特点。 (1)面向主题。操作型数据库的数据组织面向事务处理任务，各个业务系统之间各自分离，而数据仓库中的数据是按照一定的主题域进行组织的。主题是一个抽象的概念，是指用户使用数据仓库进行决策时所关心的重点方面，一个主题通常与多个操作型信息系统相关。 (2)集成的。

19、面向事务处理的操作型数据库通常与某些特定的应用相关，数据库之间相互独立，并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。 (3)相对稳定的。操作型数据库中的数据通常实时更新，数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。 (4)反映历史变化。操作型数据库主要关

20、心当前某一个时间段内的数据，而数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点 (如开始应用数据仓库的时点 )到目前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做山定量分析和预测。数据仓库与操作型数据库之间的主要区别是数据仓库在物理实现上对 I/O 要求更高。 8 【正确答案】 B 【试题解析】数据挖掘 (data miller)又称知识发现 (KDD， knowledge discovery in database)，从广义来说，就是从巨大的数据库中提炼我们感兴趣的东西，或者提炼出我们不易观察或断言的关系，最后给出一个有用的并可以解释的结论；简单地说就

21、是在数据中发现模式、知识或数据间的关系。数据挖掘的特点有三个方面。第一，数据挖掘的数据量是巨大的。因此，如何高效率地存取数据，如何根据一定应用领域找出数据关系即提高算法的效率，以及是使用全部数据还是部分数据，都成为数据挖掘过程中必须考虑的问题；第二，数据挖掘面临的数据常常是为其他目的而收集的数据，这就为数据挖掘带来了一定的困难，即一些很重要的数据可能被疏漏或丢失。因此未知性和不完全性始终贯穿数据挖掘的全过程。最后，数据挖掘常常要求算法主动地提示一些数据的内在关系。新颖性是衡量一个数据挖掘算法好坏的重要标准。 9 【正确答案】 C 【试题解析】 (1)使用 DECLARE命令定义游标，该命令语

22、法如下： DECLARE cursor_name CURSOR FORstatement_name；参数说明如下。 .cursor_name：游标名。 .statement_name：步骤 1中的 SQL 语句标识符。 (2)使用 OPEN命令打开游标，该命令的语法如下： OPEN cursor_name USING host_variable_list；参数说明如下。 .cursor_name：步骤 2中的游标名。 .host_variable_list：宿主变量列表，使用该列表中的项替换 SQL语句中的占位符。需要注意的是，如果 SQL 语句不是 SELECT 语句，那么在执行了 O

23、PEN命令后即完成了 SQL 语句的执行，而无需执行 FETCH语句。 (3)使用 FETCH语句推进游标、检索数据，该语句的语法如下： FETCH cursor_name INTO host_variable_list；参数说明如下。 .cursor_name：游标名。 .host_variable_list：宿主变量名列表，将检索到的数据保存到这些宿主变量中。 (4)使用 CLOSE命令关闭游标，该命令语法如下： CLOSE cursor_name； 10 【正确答案】 A 【试题解析】 BLOB是一个大文件，典型的 BLOB是一张图片或一个声音文件，由于它们的尺寸，必须使用特殊的方式

24、来处理 (例如：上传、下载或者存放到一个数据库 )。处理 BLOB 的主要思想就是让文件处理器 (如数据库管理器 )不去理会文件是什么，而是关心如何去处理它。因此，从优化的角度考虑，应采用的设计方案是将 BLOB 字段与关系的码独立为一张表。 11 【正确答案】 D 【试题解析】从结构的角度看，有三种数据仓库模型，分别是企业仓库、数据集市和虚拟仓库。企业仓库收集跨越整个企业的各个主题的所有信息，它提供全企业范围的数据集成，数据通常来自多个操作型数据库和外部信息提供者，并且是跨多个功能范围的。它通常包含详细数据和汇总数据。数据集市包含对特定用户有用的、企业范围数据的一个子集，它的范围限定选定

25、的主题。虚拟仓库是操作型数据库上视图的集合。 12 【正确答案】 B 【试题解析】数据仓库的体系结构如图 21-1所示。(1)数据源：是数据仓库系统的基础，是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于 RDBMS 中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息，等等。 (2)数据的存储与管理：是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库，同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心，则需要从数据仓库的技术特点着手分析。针对

26、现有各业务系统的数据，进行抽取、清理，并有效集成，按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库 (通常称为数据集市 )。数据源和数据的存储与管理部分可以统称为数据仓库服务器。 (3)OLAP服务器：对分析需要的数据进行有效集成，按多维模型予以组织，以便进行多角度、多层次的分析，并发现趋势。其具体实现可以分为： ROLAP、 MOLAP和 HOLAP。 ROLAP基本数据和聚合数据均存放在 RDBMS 之中； MOLAP基本数据和聚合数据均存放于多维数据库中； HOLAP基本数据存放于 RDBMS 之中，聚合数据存放于多维数据库中。 (4)前端工具：主要包

27、括各种报表工具、查询工具、数据分析工具、数据挖掘工具，以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器，报表工具、数据挖掘工具主要针对数据仓库。 13 【正确答案】 A 14 【正确答案】 D 15 【正确答案】 C 【试题解析】当 “列车的时刻表 ”属性为 (车次、始发站、发车时间、终点站、到达时间 )时，依照题意有，车次确定唯一的始发站和终点站，根据常识，起点站如长沙站可以有多趟列车、且每天、每次列车只开一次，车次决定了发车时间和到达时间，所以车次为主键。 “列车运行表 ”增加了日期，因为大于一天的一段时间内 (如一个月 )同样的车次可以发出多次，这时候车次不能决定日期了；同时发车时间也不能唯一确定车次，很明显，同一车站在同一时间可以发出多趟不同车次的列车，发车时间也不能为主键。 (车次，日期 )能唯一决定 “列车运行表 ”中的元组。由于每一车次具有唯一的始发站和终点站，明显 “列车时刻表 ”和 “列车运行表 ”是一对多的关系。

展开阅读全文