1、第8章 数据库技术新进展,8.1 数据库技术发展概述 8.2 数据模型及数据库系统的发展 8.3 数据库技术与其它相关技术相结合 8.4 面向应用领域的数据库新技术,第8章 数据库技术新进展,8.1 数据库技术发展概述 8.2 数据模型及数据库系统的发展 8.3 数据库技术与其它相关技术相结合 8.4 面向应用领域的数据库新技术,8.1 数据库技术发展概述,数据库系统已从第一代的网状、层次数据库系统,第二代的关系数据库系统,发展到第三代以面向对象模型为主要特征的数据库系统。 数据库技术与网络通信技术、人工智能技术、面向对象程序设计技术、并行计算技术等互相渗透,互相结合,成为当前数据库技术发展的
2、主要特征。,数据库技术发展概述(续),下图从数据模型、新技术内容、应用领域三个方面,通过一个三维空间的视图,阐述了新一代数据库系统及其相互关系。,第8章 数据库技术新进展,8.1 数据库技术发展概述 8.2 数据模型及数据库系统的发展 8.3 数据库技术与其它相关技术相结合 8.4 面向应用领域的数据库新技术,8.2 数据模型及数据库系统的发展,数据模型是数据库系统的核心和基础 格式化数据模型(包括层次数据模型和网状数据模型) 关系数据模型 面向对象的数据模型等非传统数据模型,数据模型及数据库系统的发展(续),1、第一代数据库系统(层次数据库系统和网状数据库系统 ) 格式化模型 ,层次模型是网
3、状模型的特例 2、第二代数据库系统 (关系数据库系统 ) 关系模型简单、清晰,关系代数作为语言模型,关系数据理论作为理论基础。关系数据库系统具有形式基础好、数据独立性强、数据库语言非过程化等特色 。 3、第三代数据库系统 更加丰富的数据模型、更强大的数据管理功能、满足新应用要求,8.2 数据模型及数据库系统的发展,8.2.1 第一代数据库系统 8.2.2 第二代数据库系统 8.2.3 新一代数据库技术的研究和发展,8.2 数据模型及数据库系统的发展,8.2.1 第一代数据库系统 8.2.2 第二代数据库系统 8.2.3 新一代数据库技术的研究和发展,8.2.1 第一代数据库系统,第一代数据库系
4、统指层次和网状数据库系统,其代表是: 1969年IBM公司研制的层次模型的数据库管理系统IMS(Information Management System)。 数据库任务组DBTG(Data Base Task Group)于20世纪60年代末70年代初提出的DBTG报告,数据库网状模型的典型代表 。,第一代数据库系统(续),两种数据库系统具有下列共同特点:1. 支持三级模式的体系结构2. 用存取路径来表示数据之间的联系3. 独立的数据定义语言4. 导航的数据操纵语言,8.2 数据模型及数据库系统的发展,8.2.1 第一代数据库系统 8.2.2 第二代数据库系统 8.2.3 新一代数据库技术的
5、研究和发展,8.2.2 第二代数据库系统,1970年IBM公司 San Jose 研究室的研究员 E.F.Codd发表了题为“大型共享数据库数据的关系模型”论文 ,为关系数据库技术奠定了理论基础 。,第二代数据库系统(续),20世纪70年代是关系数据库理论研究和原型开发的时代。其中以IBM San Jose研究室开发的System R和Berkeley大学研制的INGRES为典型代表。发展过程: 奠定了关系模型的理论基础,关系模型的规范说明。 研究了关系数据语言 攻克了系统实现中查询优化、并发控制、故障恢复等一系列关键技术。促进了RDBMS产品的蓬勃发展和广泛应用。,第二代数据库系统(续),关
6、系模型具有以下主要特点: 关系模型的概念单一,实体以及实体之间的联系都用关系来表示 以关系代数为基础,形式化基础好 数据独立性强,数据的物理存储和存取路径对用户隐蔽 关系数据库语言是非过程化的,将用户从编程数据库记录的导航式检索中解脱出来,大大减小了用户编程的难度,8.2 数据模型及数据库系统的发展,8.2.1 第一代数据库系统 8.2.2 第二代数据库系统 8.2.3 新一代数据库技术的研究和发展,8.2.3 新一代数据库技术的研究和发展,一、应用领域的需求 二、传统数据库系统的局限性 三、第三代数据库技术的特点,一、应用领域的需求,新的数据库应用领域,如计算机辅助设计/管理(CAD/CAM
7、)、计算机集成制造(CIM)、办公信息系统(OIS)、地理信息系统(GIS)、知识库系统和实时系统等 新应用需求需要数据库系统支持以下功能: (1)存储和处理复杂对象 (2)支持复杂的数据类型 (3)需要常驻内存的对象管理以及支持对大量对象的存取和计算 (4)实现程序设计语言和数据库语言无缝地集成 (5)支持长事务和嵌套事务的处理,二、传统数据库系统的局限性,传统数据库系统的局限性主要表现在以下几个方面: 1. 面向机器的语法数据模型 2. 数据类型简单、固定 3. 结构与行为分离 4. 阻抗失配(编程模式不同 、类型系统不匹配 ) 5. 被动响应 6. 存储、管理的对象有限 7. 事务处理能
8、力较差(只能支持非嵌套事务 ),三、第三代数据库技术的特点,支持面向对象数据模型 面向对象模型的概念是: 对象标识 封装 类和类层次 继承,第三代数据库技术的特点(续),一个面向对象的数据库系统是一个持久的、可共享的对象库的存储和管理者 一个对象库是由一个面向对象数据模型所定义的对象的集合体,第三代数据库技术的特点(续),一个数据库可称为OODBS,必须满足以下条件 支持一核心的面向对象数据模型 支持传统数据库系统所有的数据库特征,第三代数据库技术的特点(续),在研究热潮中,许多厂商推出的产品粗糙,质量低,导致OODBS有某种回归到人工导航系统的倾向 面向对象数据库的实现方式 一种是在面向对象
9、的设计环境中加入数据库功能,如ORIEN,CLOS等 另一种是对传统数据库系统进行改进,使其支持面向对象的数据模型,如ORACLE8.0,INFORMIX9.0等,第三代数据库技术的特点(续),与传统数据库系统相比有许多优点,如包含更多数据语义信息,对复杂数据对象的表达能力更强等 面向对象数据库还只是一种新兴的技术,它的发展远不如关系数据库成熟 是一项具有重大理论意义和应用前景的数据库技术,第8章 数据库技术新进展,8.1 数据库技术发展概述 8.2 数据模型及数据库系统的发展 8.3 数据库技术与其它相关技术相结合 8.4 面向应用领域的数据库新技术,8.3 数据库技术与其他相关技术相结合,
10、数据库技术与其他学科的内容相结合,是新一代数据库技术的一个显著特征,涌现出各种新型的数据库系统,例如: 数据库技术与分布处理技术相结合,出现了分布式数据库系统; 数据库技术与并行处理技术相结合,出现了并行数据库系统; 数据库技术与人工智能技术相结合,出现了知识库系统和主动数据库系统; 数据库技术与多媒体技术相结合,出现了多媒体数据库系统; 数据库技术与模糊技术相结合,出现了模糊数据库系统等。,8.3 数据库技术与其他相关技术相结合,8.3.1 分布式数据库系统 8.3.2 并行数据库 8.3.3 多媒体数据库 8.3.4 主动数据库 8.3.5 对象关系数据库,8.3 数据库技术与其他相关技术
11、相结合,8.3.1 分布式数据库系统 8.3.2 并行数据库 8.3.3 多媒体数据库 8.3.4 主动数据库 8.3.5 对象关系数据库,8.3.1 分布式数据库系统,随着地理上分散的用户对数据共享的要求日益增强,以及计算机网络技术的发展,在传统的集中式数据库系统基础上产生和发展了分布式数据库系统,8.3.1 分布式数据库系统,1. 分布式数据库系统的特点 2. 分布式数据库的体系结构,8.3.1 分布式数据库系统,1. 分布式数据库系统的特点 2. 分布式数据库的体系结构,1.分布式数据库系统的特点,分布式数据库应具有以下特点:(1)数据的物理分布性(2)数据的逻辑整体性 (3)数据的分布
12、独立性(也称分布透明性) (4)场地自治和协调(5)数据的冗余及冗余透明性,分布式数据库系统的特点(续),例子:假设一个大公司拥有四个子公司,总公司与各子公司各有一台计算机,并已联网,每台计算机带有若干终端。场地A为公司的总部,位于场地B的公司负责制造和销售其产品,位于场地CDE的公司负责销售其产品。各场地都存储了本场地雇员的数据,场地B存储了产品制造情况的数据,场地BCDE存储了本场地销售、库存情况的数据。可执行的全局应用包括:总公司总销售情况、总公司总库存情况、公司间的人员调动,等等;可执行的局部应用包括:场地B检查产品制造情况、场地E统计本子公司雇员的平均工资等等。这是一个典型的分布式数
13、据库系统。,场地A,分布式DBMS,场地E,分布式DBMS,场地B,分布式DBMS,场地D,分布式DBMS,场地C,分布式DBMS,网络,分布式数据库系统的特点(续),分布式系统的优点 分布式控制 数据共享 可靠性和可用性得到加强 性能得到改善 可扩充性好,分布式数据库系统的特点(续),分布式系统缺点 复杂 增加开销 硬件开销 通信开销 冗余数据的潜在开销 保证数据库全局并行性、并行操作的可串行性、安全性和完整性的开销,8.3.1 分布式数据库系统,1. 分布式数据库系统的特点 2. 分布式数据库的体系结构,2.分布式数据库的体系结构,原则(若干个)局部数据模式(一个)全局数据模式 全局数据模
14、式四个层次 全局外模式 全局概念模式 分片模式 分布模式,分布式数据库的体系结构(续),分片模式 水平分片 垂直分片 混合分片,分布式数据库的体系结构(续),分片时必须遵守的准则 完全性 可重构性 不相交性,分布式数据库的体系结构(续),分布模式的分配方案 划分式 全副本式 部分重复式,分布式数据库的体系结构(续),四层模式之间的联系和转换由三层映象实现 映象1 定义全局外模式与全局概念模式之间的对应关系 映象2 定义全局关系与片段之间的对应关系 映象3 定义片段与网络结点之间的对应关系,分布式数据库的体系结构(续),分布透明性式分布式数据库系统的一个显著特点 分布透明性三个层次从高到低依次为
15、:分片透明性、位置透明性和局部数据模型透明性,8.3 数据库技术与其他相关技术相结合,8.3.1 分布式数据库系统 8.3.2 并行数据库 8.3.3 多媒体数据库 8.3.4 主动数据库 8.3.5 对象关系数据库,8.3.2 并行数据库,计算机体系结构的一个明显发展趋势是从单处理器结构向多处理器结构过渡 原因: 提高单处理器的性能越来越困难,单处理器性能有物理极限 高性能处理器价格昂贵,可以用廉价的多处理器来代替,并行数据库(续),能否为越来越多的用户维持高事务吞吐量和低响应时间以成为衡量DBMS性能的重要指标 并行数据库以高性能、高可用性、高扩充性为指标,充分利用多处理器平台的能力,通过
16、多种并行性,在联机事务处理与决策支持应用两种典型环境中提供优化的响应时间和事务吞吐量,并行数据库(续),1. 并行数据库系统的体系结构 2. 并行处理技术 3. 并行数据库与分布式数据库系统的区别,1. 并行数据库系统的体系结构,目前并行计算机的体系结构主要有以下几类: 紧耦合全对称多处理器(SMP)系统,所有CPU共享内存与磁盘 松耦合群集机系统,所有CPU共享磁盘 大规模并行处理(MPP)系统,所有CPU均有自己的内存和磁盘,并行数据库系统的体系结构(续),相应并行数据库系统的体系结构: 共享内存结构 共享磁盘结构 无共享资源结构,并行数据库系统的体系结构(续),图 共享内存结构,处理器,
17、处理器,处理器,连接网络,全局共享内存,磁盘,磁盘,磁盘,并行数据库系统的体系结构(续),图 无共享资源结构,处理器,处理器,处理器,连接网络,磁盘,磁盘,磁盘,内存,内存,内存,并行数据库系统的体系结构(续),图 共享磁盘结构,处理器,处理器,处理器,连接网络,磁盘,磁盘,磁盘,内存,内存,内存,并行数据库系统的体系结构(续),三种结构各有利弊 共享内存结构相对来说容易实现,各处处理器的负载较平衡;但存在访问内存和磁盘的瓶颈,可伸缩性不佳,可用性不太好 共享磁盘结构消除了访问内存的瓶颈;但存在访问磁盘的瓶颈,分布式缓存器也是一个瓶颈,可扩充性不佳 无共享资源结构不易做到负载平衡;具有极佳的可
18、伸缩性,2. 并行处理技术,采用多线程多线索结构,提供四种不同粒度的并行性 不同用户事务间的并行性 同一事务内不同查询间的并行性 同一查询内不同操作间的并行性(垂直并行,或流水线并行) 同一操作内的并行性(水平并行,或划分并行),并行处理技术(续),水平并行性要求物理地将数据库划分为小分片,并存放在不同磁盘上并行数据库中的数据划分 划分时依据一个属性的值,就是一维数据划分 划分时依据多个属性的值,就是多维数据划分,并行处理技术(续),一维数据划分有以下几种方法 Round-robin(轮转)划分法 Range(值域)划分法 Hash(杂凑)划分法 Userdefined(用户定义)划分法 Sc
19、hema(模式)划分法 目前商用并行数据库系统都只提供了一种或多种一维数据划分法,3. 并行数据库系统与分布式数据库系统的区别,应用目标不同 实现方式不同 各结点的地位不同,8.3 数据库技术与其他相关技术相结合,8.3.1 分布式数据库系统 8.3.2 并行数据库 8.3.3 多媒体数据库 8.3.4 主动数据库 8.3.5 对象关系数据库,8.3.3 多媒体数据库,多媒体数据库实现对格式化和非格式化的多媒体数据的存储、管理和查询,其主要特征有: (1)多媒体数据库应能够表示多种媒体的数据。 (2)多媒体数据库应能够协调处理各种媒体数据,正确识别各种媒体数据之间在空间或时间上的关联。 (3)
20、多媒体数据库应提供比传统数据管理系统更强的适合非格式化数据查询的搜索功能。 多媒体数据库应提供特种事务处理与版本管理能力。,8.3 数据库技术与其他相关技术相结合,8.3.1 分布式数据库系统 8.3.2 并行数据库 8.3.3 多媒体数据库 8.3.4 主动数据库 8.3.5 对象关系数据库,8.3.4 主动数据库,主动数据库(Active Data Base)是相对于传统数据库的被动性而言的。在传统数据库基础上,结合人工智能技术和面向对象技术提出了主动数据库。 主动数据库的主要目标是提供对紧急情况及时反应的能力,同时提高数据库管理系统的模块化程度。主动数据库通常采用的方法是在传统数据库系统
21、中嵌入ECA(即事件-条件-动作)规则,主动数据库(续),为了有效地支持ECA规则,主动数据库的研究主要集中于解决以下问题: 主动数据库的数据模型和知识模型 执行模型 条件检测 事务调度 体系结构 系统效率,8.3 数据库技术与其他相关技术相结合,8.3.1 分布式数据库系统 8.3.2 并行数据库 8.3.3 多媒体数据库 8.3.4 主动数据库 8.3.5 对象关系数据库,8.3.5 对象关系数据库,是将关系数据库和面向对象的数据库相结合的产品 特点 运行用户扩充基本数据类型 能够在SQL中支持复杂对象 能够支持子类对超类的各种特性的继承 能够提供功能强大的通用规则系统,对象关系数据库(续
22、),实现方法 从头开始对象关系DBMS 在现有的关系型DBMS基础上进行扩展 将现有的关系型DBMS与其他厂商的对象关系型DBMS连接在一起,使现有的关系型DBMS直接而迅速具有对象关系型DBMS的特征 将现有的面向对象型DBMS与其他厂商的对象关系型DBMS连接在一起,使现有的面向对象型的DBMS直接而迅速地具有对象关系型DBMS的特征 扩充现有的面向对象型DBMS,使之成为对象关系型DBMS,第8章 数据库技术新进展,8.1 数据库技术发展概述 8.2 数据模型及数据库系统的发展 8.3 数据库技术与其它相关技术相结合 8.4 面向应用领域的数据库新技术,8.4 面向应用领域的数据库新技术
23、,数据库技术被应用到特定的领域中,出现了数据仓库、工程数据库、统计数据库、空间数据库、科学数据库等多种数据库,使数据库领域的应用范围不断扩大。,特定领域,DSS,CAx (CAD/CAM/CIM),地理信息系统,计划、统计,数据库 技术,数据仓库,工程数据库,地理数据库 空间数据库,统计数据库,8.4 面向应用领域的数据库新技术,8.4.1 数据仓库 8.4.2 工程数据库 8.4.3 统计数据库 8.4.4 空间数据库,8.4 面向应用领域的数据库新技术,8.4.1 数据仓库 8.4.2 工程数据库 8.4.3 统计数据库 8.4.4 空间数据库,8.4.1 数据仓库,1. 从数据库到数据仓
24、库 2. 数据仓库的特点 3. 分析工具 4. 基于数据库技术的DSS解决方案,1. 从数据库到数据仓库,操作型处理和分析型处理的区分 这种分离,划清了数据处理的分析型环境与操作型环境之间的界限,从而由原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。 体系化环境由操作型环境和分析型环境(全局级数据仓库、部门级数据仓库、个人级数据仓库)构成。,从数据库到数据仓库(续),事务处理环境不适宜DSS应用: (1)事务处理和分析处理的性能特性不同 (2)数据集成问题 (3)数据动态集成问题 (4)历史数据问题 (5)数据的综合问题,2. 数据仓库的定义和特点,数据仓库概念的创始人W.H.
25、 Inmon在其Building Data Warehouse一书中,列出了操作型数据与分析型数据之间的区别(见P 262)。 数据仓库的定义:数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,用以支持企业或组织的决策分析处理。,数据仓库的定义和特点(续),分析型数据的特点可以概括为四点,也就是数据仓库数据的四个基本特征: 数据仓库的数据是面向主题的数据仓库的数据是集成的数据仓库的数据是不可更新的数据仓库的数据是随时间不断变化的,3. 分析工具,数据仓库系统的重要组成部分(1)联机分析处理技术及工具 联机分析处理(OLAP与联机事务处理(OLTP)从1991年W.H.I
26、nmon提出DW概念到E.F.Codd于1993年提出OLAP概念仅仅两年,而从OLAP概念提出到OLAP工具的推出则时间更短,几乎是同时的。,分析工具(续),E.F.Codd在“Providing OLAP to User Analysts”一文(见PC World1993,9)中完整地定义了OLAP的概念,多维分析的概念,并给出了数据分析从低级到高级的四种模型以及OLAP的十二条准则OLAP工具产品的实现可分为两大类: 基于多维数据库的 基于关系数据库的,分析工具(续),(2)数据挖掘技术和工具数据挖掘(Data Mining,简称DM)是从超大型数据库(VLDB)或数据仓库中发现并提取隐
27、藏在内的信息的一种新技术。目的是帮助决策者寻找数据间潜在的关联,发现经营者被忽略的要素,而这些要素对预测趋势、决策行为也许是十分有用的信息。,分析工具(续),数据挖掘技术涉及数据库技术、人工智能技术、机器学习、统计分析等多种技术,它使DSS系统跨入了一个新阶段。 综上所述,数据仓库系统是多种技术的综合体,它由数据仓库(DW)、数据仓库管理系统(DWMS)、数据仓库工具三个部分组成。,4. 基于数据库技术的DSS解决方案,DWOLAPDM DSS的可行方案 数据仓库、OLAP和数据挖掘是作为三种独立的信息处理技术出现的。数据仓库用于数据的存储和组织,OLAP集中于数据的分析,数据挖掘则致力于知识
28、的自动发现。它们都可以分别应用到信息系统的设计和实现中,以提高相应部分的处理能力。,基于数据库技术的DSS解决方案(续),三种技术结合起来成为新的DSS构架 (1)在底层的数据库中保存了大量的事务级细节数据。 (2)数据仓库对底层数据库中的事务级数据进行集成、转换、综合,重新组织成面向全局的数据视图,为DSS提供数据存储和组织的基础 (3)OLAP从数据仓库中的集成数据出发,构建面向分析的多维数据模型,再使用多维分析方法从多个不同的视角对多维数据进行分析、比较,分析活动从以前的方法驱动转向了数据驱动,分析方法和数据结构实现了分离。 (4)数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地
29、发现数据中的潜在模式,并以这些模式为基础自动地作出预测。,8.4 面向应用领域的数据库新技术,8.4.1 数据仓库 8.4.2 工程数据库 8.4.3 统计数据库 8.4.4 空间数据库,8.4.2 工程数据库,工程数据库是一种能存储和管理各种工程设计图形和工程设计文档,并能为工程设计提供各种服务的数据库。应用于 CAD/CAM,CIM,CASE等Cax的工程应用领域。,工程数据库(续),工程数据库管理系统的功能: 支持复杂对象(如图形数据、工程设计文档)的表示和处理; 可扩展的数据类型; 支持复杂多样的工程数据的存储和集成管理; 支持变长结构数据实体的处理; 支持工程长事务和嵌套事务的并发控
30、制和恢复; 支持设计过程中多个不同数据版本的存储和管理; 支持模式的动态修改和扩展; 支持多种工程应用程序等。,8.4 面向应用领域的数据库新技术,8.4.1 数据仓库 8.4.2 工程数据库 8.4.3 统计数据库 8.4.4 空间数据库,8.4.3 统计数据库,统计数据库是一种用来对统计数据进行存储、统计、分析的数据库系统。 统计数据具有以下的基本特性: (1)分类属性和统计属性 (2)多维性 ,多维性是统计数据最基本的特点 (3)分类属性的层次结构 (4)微数据(Micro Data)和宏数据(Macro Data),统计数据库(续),统计数据库研究的问题和技术有: (1)数据模型 (2
31、)查询语言和用户接口(3)统计数据的物理组织 (4)时序数据 (5)统计数据库安全性,8.4 面向应用领域的数据库新技术,8.4.1 数据仓库 8.4.2 工程数据库 8.4.3 统计数据库 8.4.4 空间数据库,8.4.4空间数据库,空间数据是用于表示空间物体的位置、形状、大小和分布特征等诸方面信息的数据,适用于描述所有二维、三维和多维分布的关于区域的现象。 空间数据库系统是描述、存储和处理空间数据及其属性数据的数据库系统。,空间数据库(续),空间数据库技术研究的主要内容包括: (1)空间数据模型 :空间数据模型是描述空间实体和空间实体关系的数据模型。 (2)空间数据查询语言 ,空间数据查
32、询包括位置查询、空间关系查询和属性查询, (3)空间数据库管理系统,小结,本章概要地回顾了数据库技术发展的三个阶段,着重介绍了数据库新技术的主要内容和发展方向。 本章以数据模型、新技术内容、应用领域为三条主线,阐述了新一代数据库系统及其相互关系,从这三个方面介绍了数据库技术的进展 : 数据库技术发展的核心是数据模型的发展; 传统的数据库技术和其他计算机技术的互相结合、互相渗透是数据库新技术的主要特征; 数据库技术在特定领域的应用使数据库的应用范围不断扩大,从而为数据库技术的发展提供源源不断的动力。,小结 (续),介绍了数据库大家庭中的主要成员,包括分布式数据库系统、并行数据库系统、主动数据库系统、多媒体数据库系统、模糊数据库系统以及面向特定领域的数据仓库系统、工程数据库系统、统计数据库系统和空间数据库系统。,