数据仓库模型设计.ppt

上传人:fatcommittee260 文档编号:385342 上传时间:2018-10-10 格式:PPT 页数:91 大小:2.34MB
下载 相关 举报
数据仓库模型设计.ppt_第1页
第1页 / 共91页
数据仓库模型设计.ppt_第2页
第2页 / 共91页
数据仓库模型设计.ppt_第3页
第3页 / 共91页
数据仓库模型设计.ppt_第4页
第4页 / 共91页
数据仓库模型设计.ppt_第5页
第5页 / 共91页
亲,该文档总共91页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.1 数据仓库模型设计方法概述 1.4.2 数据仓库设计的三级模型 1.4.3 数据仓库的概念模型 1.4.4 数据仓库的逻辑模型 1.4.5 数据仓库的物理模型 1.4.6 数据装载接口设计,1.4 数据仓库模型设计,1.4.1 数据仓库模型设计方法概述,数据仓库系统的设计与数据库系统设计的区别,第一章 数据仓库原理,1.4.1 数据仓库模型设计方法概述,数据仓库系统的设计可以分为数据仓库模型设计和数据装载接口的设计两大部分,其中数据仓库模型设计又包括概念模型设计、逻辑模型设计和物理模型设计三个部分。,1.4 数据仓库模型设计,第一章

2、数据仓库原理,1.4.2 数据仓库设计的三级数据模型,数据模型是数据仓库建设的基础,一个完整、灵活、稳定的数据模型对于数据仓库项目的成功起着如下重要的作用:,1)数据模型是整个系统建设过程的导航图。2)有利于数据的整合。3)通过数据模型的建立,可以排除数据描述的不一致性。4)由于数据模型对现有的信息以及信息之间的关系从逻辑层进行了全面的描述,当未来业务发生变化或系统需求发生变化时,可以很容易地实现系统扩展。,1.4 数据仓库模型设计,第一章 数据仓库原理,5)可以消除数据仓库中的冗余数据。,数据仓库建模是数据仓库构建工作正式开始的第一步,正确而完备的数据模型是用户业务需求的体现,是数据仓库项目

3、成功与否最重要的技术因素。目前较为流行的数据仓库设计模型是概念模型、逻辑模型和物理模型三级数据模型。,1.4.2 数据仓库设计的三级数据模型,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.2 数据仓库设计的三级数据模型,一、概念模型,概念模型描述的是从客观世界到主观认识的映射,它是用于我们为一定的目标设计系统、收集信息而服务的一个概念性工具。在进行系统设计时,我们首先要将现实世界抽象为概念模型,然后再用计算机世界的模型和语言对客观世界中的具体问题进行描述。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.2 数据仓库设计的三级数据模型,二、逻辑模型,目前数据仓库一般建立在关系

4、数据库基础之上。因此,在数据仓库的设计中采用的逻辑模型就是关系模型,无论是主题还是主题之间的联系,都用关系来表示。逻辑模型描述了数据仓库的主题的逻辑实现,对于关系数据库来说,即每个主题所对应的关系表的关系模式的定义。它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.2 数据仓库设计的三级数据模型,三、物理模型,物理模型是逻辑模型在数据仓库中的实现,如数据存储结构、数据索引策略、数据的存储策略以及存储分配优化等。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.2 数据仓库设计的三级数据模型,四、三种模型之间的

5、关系,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.2 数据仓库设计的三级数据模型,五、高级模型、中级模型和低级模型,高级模型:即数据概念模型,用E-R图表示。 低级模型:即物理数据模型。 中级模型:称为数据项(dis-data item set)。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.2 数据仓库设计的三级数据模型,五、高级模型、中级模型和低级模型,dis是E-R图的细分。E-R图的每一个主题都与一个dis相对应。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.2 数据仓库设计的三级数据模型,五、高级模型、中级模型和低级模型,每个dis中的数据分为4个

6、组别:基本数据组、二级数据组、连接数据组和类型数据组。,1)连接数据组主要用于本主题与其他主题之间的联系,体现E-R图中主题之间的关系。一般情况下,连接数据组往往是一个主题的公共码键。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.2 数据仓库设计的三级数据模型,五、高级模型、中级模型和低级模型,2)基本数据组基本数据组包含了本主题中固定的、基本不变的属性。 3)二级数据组是本主题中有时会发生变化的数据,其稳定性低于基本数据组。 4)类型数据组是本主题中经常改变的数据,其稳定性最低。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.2 数据仓库设计的三级数据模型,五、高级模型

7、、中级模型和低级模型,例:,商品ID,客户ID 姓名 性别 身份证号码,住址 文化程度 电话 E-mail,交易ID 商品金额 购买时间,交易ID 商品金额 购买时间,交易ID 商品金额 购买时间,电器,食品,床上 用品,类型数据组,二级数据组,连接数据组,基本数据组,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.3 数据仓库的概念模型设计,通过概念模型设计,可以确定数据仓库的主要主题及相互关系。,进行概念模型设计所要完成的工作有:1)界定系统边界,即进行任务和环境评估、需求收集和分析,了解用户迫切需要解决的问题及解决这些问题所需要的信息,要对现有数据库中的内容有一个完整而清晰的认识

8、。2)确定主要的主题域及其内容,即要确定系统所包含的主题域,然后对每一个主题域的公共码键、主题域之间的联系、充分代表主题的属性组进行较为明确的描述。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.3 数据仓库的概念模型设计,数据仓库的概念模型设计可以采用两种方法:E-R模型和面向对象的分析方法。,一、E-R模型,E-R图描述的是主题以及主题之间的联系。用E-R模型进行概念模型设计的过程如图:,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.3 数据仓库的概念模型设计,(1)任务和环境的评估,(2)需求的收集和分析,(3)主题的选取,确定主题间关系 主题选取的原则:1)优先实施

9、管理者目前最迫切需求、最关心的主题。2)优先选择能够在较短时间内发生效益的决策主题。3)推后实施业务逻辑准备不充分的主题。4)推后考虑实现技术难度大、可实现性较低、投资风险大的主题。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.3 数据仓库的概念模型设计,(4)主题内容描述描述的内容包括:1)主题的公共码键。2)主题之间的联系。3)充分代表主题的属性组。,(5)E-R图长方形表示主题椭圆形表示主题的属性组菱形表示主题之间的联系,1.4 数据仓库模型设计,第一章 数据仓库原理,例1:假设有商品、客户和供应商三个主题。商品有如下属性组:商品固有信息商品库存信息商品销售信息商品采购信心客

10、户有如下属性组:客户固有信息客户购物信息供应商有如下属性组:供应商固有信息供应商品信息则可得到如下E-R图:,1.4.3 数据仓库的概念模型设计,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.3 数据仓库的概念模型设计,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.3 数据仓库的概念模型设计,例2、中医药方剂是中医治疗疾病的重要手段,方剂中蕴涵着中医博大、精深的理论。为了揭示蕴涵在方剂中的应用规律和内部的有机联系,推动传统医学的发展,加快新药产品的开发,要建立中医方剂数据仓库。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.3 数据仓库的概念模型设计,方剂中的信息

11、可以分为两个部分:一部分是药物的配比,即需要哪几味中药,每种药材各需要多少;另一部分则是其主治的病症,这两部分信息被方剂有机地联系在一起。药物的配比是由药理决定的,而病症的规则又是与病因和发展的机理密切联系,要分析方剂,就不可能不研究这两方面的信息。因此可以确定主要的主题为方剂、药物、病症,所需的数据为方剂数据、药物数据、病症数据。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.3 数据仓库的概念模型设计,主题的描述,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.3 数据仓库的概念模型设计,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.3 数据仓库的概念模型设计,

12、二、面向对象的分析方法,采用面向对象方法进行概念模型设计时,E-R模型中的实体转化为面向对象系统中的类,E-R模型中实体的属性对应面向对象系统中类的属性,E-R模型中实体间的关系表现为面向对象系统中类间的关系。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.3 数据仓库的概念模型设计,二、面向对象的分析方法,类常用的图形表示方法是类表。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.3 数据仓库的概念模型设计,二、面向对象的分析方法,在面向对象的方法中,类之间存在三种关系:继承、包容和关联。,1、继承,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.3 数据仓库的概

13、念模型设计,二、面向对象的分析方法,2、包容,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.3 数据仓库的概念模型设计,二、面向对象的分析方法,3、关联,在面向对象方法中,除了包容和继承关系之外,类之间的其他关系都归入关联关系。因为类的动作反映的是类对自身或者其他类的作用,而关联关系是指类间的作用与反作用,所以关联关系可以通过类的动作来体现。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.3 数据仓库的概念模型设计,二、面向对象的分析方法,例:中医数据仓库选择出三个类:药物类、方剂类、病症类,其中药物类可以派生出治感冒的药物、治脾胃的药物和治肠炎的药物三个子类,各类之间的关

14、系如图:,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,进行逻辑模型设计所要完成的主要工作有: (1)系统数据量的估算 (2)数据粒度的选择 (3)确定数据分割策略 (4)增加时间字段 (5)去除纯操作型数据 (6)进行合理的表划分 (7)定义关系模式 (8)增加导出字段 (9)定义记录系统,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,一、系统数据量估算,数据仓库数据量级的一个简单估算方法是:设在概念模型中出现的表个数为N(这些表中应当不包括不会放进数据仓库的表),对于每个表i(0i=N)计算表的大小Si和表的主关键

15、字大小Ki,然后估计每张表i在单位时间内最大记录数Lmax和最少记录数Lmin。则数据仓库的粗略数据量在如下范围:,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,一、系统数据量估算,其中,T是数据在数据仓库中存在的周期。通常轻度综合的数据在数据仓库中存放的周期是510年。是考虑由于数据索引和数据冗余而使得数据量增大的冗余因子,通常可取1.22。 上式的含义是数据仓库数据量=(表记录的大小十主关键字大小)记录的数量单位时间存储时间冗余因子。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,一、系统数据量估算,表i在单位时间

16、内最大记录数Limax需要按照公司的客户数量或者市场的占用情况估算。比如对电信公司的计费表记录数量的估计,可以采用电信公司的客户数量单位时间内平均通话的次数每个存储时间来估计表的记录数量。以上方法估算的结果只能作为数据粒度选样和软硬件平台选取的参考数据,它同实际系统的数据量可能会有较大的出入。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,二、数据颗粒度的选择,1、单一数据粒度的概念:,直接存储细节数据并定期在细节数据基础上进行数据综合。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,二、数据颗粒度的选择,2、双重粒度

17、的概念:,对于细节数据只保留近期的数据在数据仓库中,当保留周期到达时,将距离当前较远的数据导出到磁盘上,从而为最新的数据腾出空间。这样,数据仓库只保留在细节数据保留周期之内的数据,对于这个周期之后的信息,数据仓库只保留其综合数据。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,二、数据颗粒度的选择,2、双重粒度的概念(续):,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,二、数据颗粒度的选择,2、双重粒度的概念(续):,单一粒度和双重粒度的区别在于细节数据在数据仓库的高速存储设备中存储的时间长短不同。在使用双重粒度时,

18、一个重要的参数是细节数据的保留周期,这个周期对于不同行业、不同需求可能有不同的答案。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,二、数据颗粒度的选择,3、粒度的选择,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,二、数据颗粒度的选择,4、粒度层次划分,无论是单一粒度还是双重粒度,在数据仓库中都存在多重综合层次的数据。有几个因素会影响粒度层次的划分。(1)要接受的分析类型(2)可接受的最低粒度(3)能存储数据的存储容量,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,三、表的分割,

19、在确定粒度之后,需要考虑的是表的分割策略,常用的分割策略是按照时间进行如图所示。比如商品供应关系问题可以采用双重粒度,保留近6个月的细节数据。综合数据可以按照年进行分割。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,三、表的分割,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,四、增加时间字段,在数据粒度分割策略确定之后,我们可以将表按照数据粒度/分割策略的需求定义新表,并为各个表增加合适的时间字段;比如在上图中的细节数据,我们使用的时间字段是“供货日期”,按月综合数据使用的时间字段是“供货月份”。时间字段实际上体现了

20、数据粒度的信息。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,五、去除纯操作型数据,在将业务系统中的数据抽取到细节数据表或者综合数据表时,需要去除纯操作型数据。纯操作型数据就是与分析毫无关系的数据,这些数据字段通常是为了方便业务系统的运营而设立的,它们对于面向分析的数据仓库系统没有实际的意义。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,六、合理的表划分,通过增加合适的时间字段、去除纯操作型数据,我们的模型更进了一步。但是在实际的系统中,一张表的字段数目常常很多。如果直接存放字段数目很大的表,可能存在下列的问题:,

21、(1)从数据的存储角度上看,表中有的字段更新较为频繁,因而对于这些数据字段数据仓库需要经常进行数据追加工作。而表中的其他字段的更新操作很少,对于这些字段,数据追加的工作较少。如果将变化很快的字段同变化很慢(很少)的字段放在一张表中,则将浪费大量的存储空间。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,六、合理的表划分(续),(2)从数据的访问角度看,表中的部分字段是经常被访问的,而其他的字段访问较少。如果将所有字段放在一张表中,就使得表的体积增大,不能将经常需要使用的部分放在内存中,这样将影响访问的效率。,1.4 数据仓库模型设计,第一章 数据仓库原理,

22、1.4.4 数据仓库的逻辑模型设计,六、合理的表划分(续),基于这样的原因,我们需要对表中的内容进行合理的划分。划分的方法可以按照数据的变化情况进行、也可以按照业务规则进行。,(1)按照数据的稳定性对表进行划分。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,六、合理的表划分,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,六、合理的表划分,(2)按照业务规则进行表划分,W.H .Inmon在Building the Data Warehouse中提出了DIS(data item set)的设计方法,这种方法是将数据按照

23、业务规则对共有数据和专有数据进行划分。DIS模型由初始数据、二次数据、连接数据以及不同数据“类型”组成.,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,六、合理的表划分,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,六、合理的表划分,例:如图所示的是一个商品交易的DIS模型。将交易分成现金、信用卡、支票以及是否大客户等类型。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,六、合理的表划分,对于业务系统中记载的: “345号顾客 非大客户 时间:2001ll 14:03 购买商品:1

24、 付款方式:小量 现金” “368号顾客 大客户 时间:200ll2 15:53购买商品:1 付款方式:批量 支票” 两条记录,映射在DIS模型中,将生成6条记录。(1)初始数据表中的两条记录用于记载仅出现一次的信息,比如交易号、商品号、顾客号、支付类型、是否批量等信息。(2)在现金表中出现一条记录记载345号顾客的购买行为;在小量表中出现一条记录记载345号顾客的购买行为。在支票表中出现一条记录记载368号顾客的购买行为;在批量表中出现一条记录记载368号顾客的购买行为,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,六、合理的表划分,1.4 数据仓库模型

25、设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,七、定义关系模式,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,八、增加导出字段,导出数据本身是冗余的,但是生成导出数据可以方便数据以后的使用。下图给出了供应关系按月综合表增加导出数据的例子。在按月综合表中,增加了“平均价格”、“供货总价值”、“供应总数量”等导出字段。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,九、记录系统的定义,记录系统的定义就是指明数据仓库中关系表各个字段来源于哪个业务数据库的哪张表的哪个字段。从数据库系统到数据仓库关系模式的记录

26、系统定义:,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.4 数据仓库的逻辑模型设计,九、记录系统的定义,综合数据表也需要进行类似的工作。但是综合数据表的数据是从细节数据表中抽取,而不是从业务数据库中抽取。对于综合数据表中的导出字段,我们需要指出它同细节数据表字段的对应关系和计算方法。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理模型设计,在数据仓库的物理设计中,主要解决如下问题: (1)确定数据的存储结构 (2)确定数据的索引策略 (3)确定数据的存储策略 (4)存储分配优化。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理

27、模型设计,一、确定数据的存储结构,数据仓库中包含巨量数据,为了提高数据的访问效率和可靠性,必须认真选择数据的存储结构。对于数据存储问题的解决,有两种可选的方式:分布存储方式和集中存储方式。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理模型设计,一、确定数据的存储结构,数据分布式存储方式:数据分布式存储是采用磁盘阵列在多个节点间分布的方式来存储数据。,集中式数据存储方式:数据集中存储是将现有的SAN或NAS系统作为服务器的存储部分。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理模型设计,二、确定索引策略,在数据仓库中由于数据量很大,需要

28、对数据的存取路径进行仔细设计和选择,建立专用的复杂的索引,以获得最高的存取效率。在数据仓库中的数据是不常更新的,即每个数据存储是稳定的。索引一旦建立几乎不需要再维护。下面介绍几种索引技术。,1.4 数据仓库模型设计,第一章 数据仓库原理,第一章 数据仓库原理,1BTree索引,传统的数据库采用B-Tree索引,它是一个高效的索引,如图所示。,1.4.5 数据仓库的物理模型设计,二、确定索引策略,1.4 数据仓库模型设计,1BTree索引,1.4.5 数据仓库的物理模型设计,二、确定索引策略,BTree就具有一定的局限性,它存在以下的缺点:,(1)BTree通常要求被索引的字段具有很好的选择性。

29、 (2) BTree索引对于从大表中选择少数的几个数据记录的查询工作是非常适合。 (3)BTree的快速索引性能实际上是通过较大的代价换取的。,1.4 数据仓库模型设计,第一章 数据仓库原理,2位索引技术,1.4.5 数据仓库的物理模型设计,二、确定索引策略,Sybase公司推出的数据仓库Sybase IQ,采用位索引技术,它在处理复杂的查询时,比传统数据库索引B-Tree有了突破。,位索引技术在存储数据的方式上与传统的关系数据库有所不同,它不是以“行记录”而是按“列”为单位存储数据,即对数据进行垂直分割。对于每一个记录的字段满足查询条件的真假值用1或0的方式表示,或者用字段中不同取值来表示。

30、,1.4 数据仓库模型设计,第一章 数据仓库原理,2位索引技术,1.4.5 数据仓库的物理模型设计,二、确定索引策略,一般DSS查询往往仅涉及大量数据记录中的少数列,因而不需要访问原始数据就能快速获得查询结果。显然,利用字段的不同取值也能快速进行数据聚类、分组、求最大值、求最小值及求平均值等。,对于高度可选择的数(称高基数),如姓名或地址等可能有数万个选择值,用(1,0)真假值来索引是不合适的。,1.4 数据仓库模型设计,第一章 数据仓库原理,2位索引技术,1.4.5 数据仓库的物理模型设计,二、确定索引策略,例:检索“美国加州有多少男性未申请保险?”,有两个满足条件的记录,1.4 数据仓库模

31、型设计,第一章 数据仓库原理,2位索引技术,1.4.5 数据仓库的物理模型设计,二、确定索引策略,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理模型设计,二、确定索引策略,3标识技术,使用标准的数据库技术来储存数据仓库是非常昂贵的。较好的替代方法是用基于标识的技术来储存数据仓库。这种技术根本不同于关系数据库技术。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理模型设计,二、确定索引策略,3标识技术,例:有如下样本数据,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理模型设计,二、确定索引策略,3标识技术,假设可以

32、为此数据库中的每个实体创建一个标识,则有如下标识:,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理模型设计,二、确定索引策略,3标识技术,一旦建立标识后,数据库可被精简,如表所示。,1.4 数据仓库模型设计,第一章 数据仓库原理,使用标识数据库技术时,有几项是非常有利的应用: 大量压缩了数据。 数据越多,标识数据比标准的、基于记录的数据更有利。 因为数据被大量压缩,所以整个数据库可以存放在内存中。 可以索引所有的行和所有的列。,1.4.5 数据仓库的物理模型设计,二、确定索引策略,3标识技术,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理

33、模型设计,二、确定索引策略,4广义索引,对数据仓库的一个很广泛的应用问题是“这个月销售最好和最差的10种商品是哪些?”,可以设计这么一块“黑板”,在上面标明当月销售最好和最差的10种商品的名称或者它们相关记录的存放地址。这块“黑板”就是人们所说的“广义索引”。,“广义索引”对于处理最值问题时,其效果是非常明显的,也是较易于实现的。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理模型设计,二、确定索引策略,4广义索引,在从操作型环境抽取数据并向数据仓库中装载的同时,就可以根据用户的需要建立许多这样的“广义索引”。每次数据仓库装载时,就重新生成这些“广义索引”的内容。这

34、样并不需要为了建立“广义索引”而去扫描数据仓库。而且这些索引都非常小,开销也是相当小,但它给应用所带来的便利却是显而易见的。对于一些经常性的查询,利用一个规模小得多的“广义索引”总比去搜索一个大得多的关系表方便得多。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理模型设计,二、确定索引策略,4广义索引,但是,同时出现的问题就是,随着数据仓库“年龄”的增长以及数据仓库随时间变化的特性,这种“广义索引”的数目也就会成倍的增长,管理这些数目多、规模小、名目繁多的“广义索引”也就成为一件非常棘手的事情。这就需要在元数据中完整地定义说明这些“广义索引”。应用需要时,首先去查找

35、元数据,再去查找相应的“广义索引”或表。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理模型设计,二、确定索引策略,5连接索引,连接索引是数据仓库中使用得最为广泛的索引之一,所谓连接索引,就是将事实表和维表中的索引项进行连接运算,然后将结果作为索引保留。由于索引项比整个记录条目要小,连接索引也比直接对事实表和维表进行连接的结果集合要小得多,因此,连接索引能够起到较好的索引作用。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理模型设计,二、确定索引策略,5连接索引,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理模

36、型设计,三、确定数据存储策略,1表的归并,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理模型设计,三、确定数据存储策略,1表的归并,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.5 数据仓库的物理模型设计,三、确定数据存储策略,1表的归并,1.4 数据仓库模型设计,第一章 数据仓库原理,三、确定数据存储策略,1表的归并,1.4.5 数据仓库的物理模型设计,1.4 数据仓库模型设计,第一章 数据仓库原理,三、确定数据存储策略,1.4.5 数据仓库的物理模型设计,2分割表的存放,为了便于数据的访问,可以在逻辑设计中对大表进行分割。需要访问大表中某类数据时,只需

37、访问分割后的对应小表从而提高访问效率。在某些情况需要对整个大表也就是分割后的所有小表进行访问,比如进行一次汇总计算。如果希望系统能够并行地读取多个小表,可以将分割后的表在物理上采用分布化的存储,从而达到并行读取的目的。,1.4 数据仓库模型设计,第一章 数据仓库原理,三、确定数据存储策略,1.4.5 数据仓库的物理模型设计,3按列存储,前面已经讲过,Sybase公司的数据仓库产品采用按列存储的方法。这种方法有利于:数据的访问; 数据的压缩; 数据的索引; 数据的统计运算。,1.4 数据仓库模型设计,第一章 数据仓库原理,四、存储分配优化,1.4.5 数据仓库的物理模型设计,存储分配优化是解决诸

38、如数据块大小、缓冲区单元大小和个数同系统配置相关的问题,通常不同的数据仓库厂商都会根据其产品的应用实例给出推荐的配置参数,设计人员可以参考这些数据,系统配置还要在系统维护过程中根据实际情况(数据的增长速度、用户查询的数量和额度)进行调整。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.6 数据装载接口设计,数据装载接口完成从操作型系统的数据表中提取、格式转换、清洗以及将细节数据聚合为不同综合层次的数据等功能。其设计包括:1)扫描模块设计。2)定义数据转换规则和清洗规则。3)数据抽取模块的设计。4)综合模块的设计。,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.6 数据装载接

39、口设计,装载模块构成:,非集成的业务元数据,要追加的数据集合,细节集成数据,综合数据,扫描 模块,抽取 模块,综合 模块,1.4 数据仓库模型设计,第一章 数据仓库原理,1.4.6 数据装载接口设计,在接口编程中,需要注意一下问题:1)程序代码的处理效率。2)代码模块化。3)文档记录。,1.4 数据仓库模型设计,第一章 数据仓库原理,本节总结:,本节首先介绍了数据仓库系统设计方法与数据库系统设计的区别,然后介绍了数据仓库环境的三级数据模型和各级数据模型的设计方法,最后介绍了数据装载接口的设计。,1.4 数据仓库模型设计,第一章 数据仓库原理,本节讨论题:,1、什么是需求驱动?什么是数据驱动?它

40、们适用于什么环境? 2、简述E-R模型和面向对象方法的异同(举例)。如何区分继承关系和包容关系?分别各给出一个继承和包容关系的实例。 3、什么是数据粒度?粒度有哪些形式?粒度与数据仓库的性能有何关系?什么是双重粒度?什么是粒度层次?它与双重粒度的区别。 4、数据分割对数据仓库性能有什么影响?通常的分割标准是什么?,1.4 数据仓库模型设计,第一章 数据仓库原理,5、某电信公司由多个分公司组成,各个分公司包括营业厅、计费中心、账务中心、核算中心、客户服务中心、市场营销部门、网管中心等部门。该公司现有数据库包括客户数据库、网管数据库、计费数据库、账务数据库、市场信息数据库、营销数据库。该公司希望能够从不同角度对公司的收益情况进行分析,了解公司客户的情况、呼叫特征等。为此目的,公司打算建立数据仓库,请为该公司的数据仓库进行模型设计。,本节讨论题:,6、数据仓库设计中,还有哪些索引技术(课上介绍的以外)? 7、在数据仓库模型设计过程中,哪些内容应该在元数据中体现? 8、举例说明在数据仓库中怎样进行存储分配优化?,本节讨论题:,1.4 数据仓库模型设计,第一章 数据仓库原理,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教学课件 > 大学教育

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1