1、文献片段标识符(DFI) 2020 - 11 - 16 发布 2021 - 02 - 01 实施 中华人民共和国新闻出版行业标准 Document fragment identifier ICS 01.140.40 A19 中华人民共和国国家新闻出版署 发 布 CY/T2082020 I CY/T 2082020 目次 前言 III 引言 V 1 范围 1 2 规范性引用文件 1 3 术语和定义 1 4 文献片段标识符(DFI) 2 5 DFI的分配 3 6 DFI元数据 4 7 DFI的管理 4 附录A(规范性附录)功能代码定义和使用规则 5 附录B(规范性附录)DFI校验码的计算方法 6
2、附录C(规范性附录)DFI的使用 8 附录D(规范性附录)DFI元数据规范 9 参考文献 10 III CY/T 2082020 本标准按照GB/T 1.12020给出的规则起草。 本标准由国家新闻出版署提出。 本标准由全国新闻出版标准化技术委员会(SAC/TC 527)归口。 本标准起草单位:中国新闻出版研究院、人民教育电子音像出版社、北京师范大学音像出版社、 同方知网(北京)技术有限公司、中国版本图书馆。 本标准主要起草人:蔡逊、王青华、邱恋、熊海涛、王庚梅、刘颖丽、香江波。 前言 V CY/T 2082020 信息技术的发展,使信息文献资源的使用方式产生了深刻的变化,其中最显著的特征之一
3、,就是 文献内容的碎片化应用。在各种应用终端设备上,对于文献应用的颗粒度已经明显地缩小,在诸多应 用场景下,文献的片段都需要通过对片段的标识或标引以实现识别、检索和定位。信息技术的发展还 给文献应用提供了共同呈现等复合应用的基础,这些应用往往需要在相关的内容片段之间建立对应关 系,而建立这样的对应关系也需要通过标识对文献的片段进行有效地识别和定位。 由此可见,在现代信息技术条件下,仅有对于一个信息资源的整体标识已经不能够满足数字化网 络化发展的使用需求。虽然一些机构和组织较早就注意到了这一问题,并且采取了相应的技术对策, 能够在特定的技术环境中有效地解决这个问题,但是迄今为止,这些手段和方法还
4、难以做到在文献资 源脱离或转移原有的技术环境时,仍然能够实现相同的标引和定位。如果文献的发布者或文献应用的 开发者能够在原有的文献整体标识的基础上,遵循一种简便并且通用的规则,对文献片段进行(预先 或追加的)标识,将会给各种技术系统引用该标识,使该文献在不同的技术环境下实现各种使用功能 提供诸多的便利。 本标准提供了这样一种方法,在原有文献标识符的基础上,辅之一种片段标识的工具(文献片段 标识符),解决原有标识符不能标识文献片段的问题,即采用原有的整体标识+片段标识的二级标识 方法。这种方法既可以继续发挥原有标识符的作用,不改变现有的标识符体系框架,又可以满足文献 碎片化的各种使用需求,同时,
5、这种二级标识架构还可以避免对片段的重新标识而产生大量标识符, 导致标识符泛滥而难于管理的问题。 引言 1 CY/T 2082020 1范围 本标准规定了文献片段标识符(DFI)的构成、语法规则、显示、分配和管理。本标准适用于已被 整体标识的文献进行片段标识。 2规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本 文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 48942009信息与文献术语 GB/T 177102008信息技术安全技术校验字符系统 GB/T 18238.32002(idt ISO/IEC 1
6、0118-3:1998)信息技术安全技术散列函数第 3 部分:专 用散列函数 3术语和定义 以下术语和定义适用于本标准。 3.1 文献document 在文献工作过程中作为一个单位处理的记录信息或实物对象。 注: 在档案中也称文件。 GB/T 48942009,定义4.1.2.2 3.2 片段fragment 文献(3.1)中可独立标识并使用的某个组成部分。 3.3 文献片段标识符documentfragmentidentifier(DFI) 根据本标准分配的用于识别文献(3.1)中片段(3.2)的标识符。 3.4 登记者registrant 根将文献(3.1)分割为片段(3.2),并为此申请
7、版本代码的组织或个人。 3.5 版本代码versioncode 区分同一文献不同片段划分方案的代码。 文献片段标识符( DFI) 2 CY/T 2082020 3.6 片段代码fragmentcode 由登记者(3.4)按照相关规则分配给文献片段的代码。 3.7 功能代码functioncode 确定片段代码(3.6)执行某一项特定任务的代码。 3.8 片段特征码fragmentcharacteristiccode 按照GB/T 18238.32002第9章规定的算法生成的该片段的特征码。 4文献片段标识符(DFI) 4.1基本构成 文献片段标识符(DFI)由标识符标志和以下四部分组成: a)
8、版本代码;b)片段代码;c)功能代码;d)校验码。 4.2编码结构 DFI的编码结构如图1所示: DFI 000 000 000 000 00 0 标识符标志 版本代码 片段代码 功能代码 校验码 图 1DFI 的编码结构 4.3语法规则 DFI的语法规则定义为: a)版本代码 版本代码由3位数字组成,以区别同一文献的不同片段划分方案。 b)片段代码 片段代码每3位数字为一组,由左至右每一组代表的片段颗粒度级别由大到小; 由登记者决定采用的片段颗粒度级数,即采用多少组3位数; 当某一级别片段数量超过10 3 (3位数字)时,可按3的整数倍增加该段的位数,即6位数字、 9位数字,将该级别片段标识
9、数量增加到10 6 、10 9 ; 当登记者认为无须区分片段颗粒度级数时,可按照全部片段的数量确定片段代码应选择的字 长,片段代码的字长必须是3的整数倍,此时须将全部片段代码不分段连续使用。 c)功能代码 功能代码由2位数字组成,以0099代表不同的功能,功能代码定义和使用规则见附录A。 3 CY/T 2082020 d)校验码 校验码由1位数字组成,按GB/T 177102008规定的方法生成,具体计算步骤见附录B。 4.4DFI 的显示 当需要在屏幕上显示DFI编码或将其打印出来时,应在各字段间加上连字符“-”进行分隔,并在 数字编码前加上文献片段标识符标志“DFI”,“DFI”与编码之间
10、空一个半角字符空格。 DFI一般应与该文献的整体标识同时显示,该文献的整体标识在左,DFI在右,中间空一个半角字 符空格,如示例1所示。 示例 1: ISBN、ISSN、ISRC与DFI同时显示 ISBN 978-7-80702-357-0DFI002-226-003-057-00-0 ISSN 1002-4166DFI001-019-010-015-133-00-5 ISRC CN-M01-14-00078DFI023-056-021-932-00-6 片段代码不分段连续使用或其中连续使用的字段内不加连字符“-”,如示例2所示。 示例 2: 片段代码分段和不分段时DFI的显示 片段代码分为3
11、段,3段均为3位数字时:DFI 006-226-003-057-00-8 片段代码分为2段,第2段增加至9位数字时:DFI 021-322-023565377-00-7 片段代码分为4段,第2段和第4段增加至6位数字时:DFI 010-023-102699-339-056723-00-4 片段代码为9位数字,不分段时:DFI 005-159037252-00-5 4.5DFI 的使用 DFI的使用见附录C。 5DFI 的分配 5.1版本代码 当登记者需要对一个文献进行片段分割并使用DFI标识时,可向DFI注册机构提出申请。 DFI注册机构收到登记者的申请并确认符合本标准使用规范时,向登记者发放
12、该文献标识符项下 的片段标识符版本代码,注册版本代码从001开始按流水顺序编排。 版本代码000作为特殊版本号码开放给未注册或不能注册的用户使用,DFI注册机构不对000版 本号提供解析服务。 当文献尚未获得整体标识或其他原因不能进行版本注册时,可使用特殊版本号码按照本文件的规 则进行片段划分和标识,但仅限于组织内部使用,不可以开放给公众使用。未注册的片段标识版本可 在具备注册条件后进行注册。 当版本代码出现剩余可分配数量不足时,由注册机构决定是否增容和拟采取的增容规则。 5.2片段代码和功能代码 由登记者根据需要决定片段代码使用几组和是否不分段连续使用,并为内容片段分配片段代码。 由登记者按
13、照附录A的规则确定功能代码,其中未定义字段可由登记者自行定义,并可在应用解 析中实现其功能。 5.3校验码 登记者使用DFI注册机构提供的工具计算出每一个文献片段标识符的校验码数值,并将该数值填 入校验位。 4 CY/T 2082020 5.4时限要求和变更 登记者应在领取版本代码后90天内完成片段代码和功能状态码的分配,并向注册机构上传DFI注 册和元数据表单。如遇特殊情况不能在90天内完成,可向注册机构说明并申请延期。 当登记者向注册机构提交DFI注册和元数据表单后,该DFI即不可更改。如需变更,登记者可申 领新的版本代码,并为该文献分配新的片段代码和功能代码。 6DFI 元数据 每个DF
14、I编码都应有附录D中规定的DFI元数据。DFI编码和DFI元数据应录入到由登记者管理 的注册表中。应用技术系统可通过该注册表对DFI进行解析,同时登记者应将注册表提交给DFI注册 机构,由DFI注册机构管理和保存。 DFI元数据见附录D。 7DFI 的管理 DFI系统由本标准的注册机构负责管理。 DFI注册机构由本标准发布机构认定并授权。 DFI注册机构应为使用者提供DFI解析服务。 DFI注册机构应向登记者提供DFI校验码和片段特征码的生成工具。 5 CY/T 2082020 附录 A (规范性附录) 功能代码定义和使用规则 A.1功能代码定义 功能代码定义如表A.1所示。 表 A.1功能代
15、码定义表 功能 代码 备注 该片段的整体标识 00 该片段的起始标识(起始定界符) 01 01和02须配对使用 该片段的结束标识(结束定界符) 02 书签标识(定位符) 03 该片段的中间结束标识(中间结束定界符) 04 04和05须配对使用 该片段的中间开始标识(中间开始定界符) 05 未定义(可由登记者定义) 0699 A.2使用规则 功能代码的使用应符合以下规则: 当需要将文献分解为若干子文件片段,并且这些片段可以文件形式独立存在时,应使用功能 代码“00”,对该片段整体标识; 当不需要或不能将文献分解为若干子文件片段,或不能形成这些片段的独立文件时,可使用 功能代码“01”和“02”,
16、标识所定义片段在文献中的起始和终止位置,功能代码“01”和“02”必 须配对使用,不得单独使用其中的一个; 当出于某种目的需要确定一个文献中的位置时(例如插入注释等),可使用功能代码“03”; 当所表示对片段中存在不属于本片段的内容时,(例如在本片段中包含一幅插图,但该插图 不属于本片段的内容,是其他片段的内容,由于排版等原因被放置在了本片段中)可使用“04该片段 的中间结束标识(中间结束定界符)”和“05该片段的中间开始标识(中间开始定界符)”,将不属 于本片段的内容排除; 未定义功能代码字段(0699)开放给登记者使用,登记者可根据应用系统的功能定义该字 段功能代码,以实现所需要的使用功能
17、。 6 CY/T 2082020 附录 B (规范性附录) DFI 校验码的计算方法 B.1校验码的计算 可根据以下程序计算得出DFI的校验码。请注意,DFI编码的长度取决于片段代码的长度。校验 码由在版本代码、片段代码和功能代码从右到左分配的加权因子1和2以及模数10计算得出。校验码 的计算方法如下: a)将加权因子1分配给最右边(最低有效)的数字。然后从右到左给下一个数字分配加权因子2, 再给下一个数字分配加权因子1,并以这种方式给DFI编码中的所有数字分配加权因子; b)将各数字跟其对应的加权因子相乘; c)如果所得乘积等于或大于10,将乘积中所含的数字相加(例如,如果乘积为16,将1和
18、6相 加等于7); d)将所有的乘积相加; e)将总和除以10得到余数; f)用10减去余数; g)如果所得结果在19的范围内时,该结果就是校验码; h)如果所得结果等于10,校验码为0。 校验码的计算见示例B1。 示例 B1: 校验码的计算示例 版本代码 片段代码 功能代码 数字 0 0 6 3 4 5 2 0 0 8 6 2 9 3 7 0 0 加权 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 乘积 0 0 6 6 4 10 2 0 0 16 6 4 9 6 7 0 0 相加之和 0 0 6 6 4 1 2 0 0 7 6 4 9 6 7 0 0 最下面一行的总和为
19、58。 除以10后得到的余数为8。 校验码为10-8=2 所以DFI为: DFI 006-345-200-862937-00-2 B.2用校验码验证 DFI 编码的正误 验证DFI编码正误的计算方法如下: a) 将加权因子1分配给功能代码(最低的有效数字)。接着从右到左给下一个数字分配加权因子 2,再给下一个数字分配加权因子1,以这种方式为DFI编码中的所有数字分配加权因子; b)将每个数字与其相应的加权因子相乘; c)如果所得乘积等于或大于10,将该乘积所含有的数字相加(例如,如果乘积为16,将1和6 相加等于7); 7 CY/T 2082020 d)将所有的乘积相加(包括校验码); e)将
20、总和除以10得到余数; f)如果余数为0,该DFI编码正确,否则错误。 正确的DFI编码和错误的DFI编码验证见示例B2和示例B3。 示例 B2: 正确的DFI编码验证实例 DFI 006-345-200-862937-00-2 版本代码 片段代码 功能代码 校验码 数字 0 0 6 3 4 5 2 0 0 8 6 2 9 3 7 0 0 2 加权 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 乘积 0 0 6 6 4 10 2 0 0 16 6 4 9 6 7 0 0 相加之和 0 0 6 6 4 1 2 0 0 7 6 4 9 6 7 0 0 2 最下面一行的总和为6
21、0; 除以10得到的余数为0; 证明此DFI编码正确。 示例 B3: 错误的DFI编码验证实例 DFI 006-345-200-862937-06-8 版本代码 片段代码 功能代码 校验码 数字 0 0 6 3 4 5 2 0 0 8 6 2 9 3 7 0 6 8 加权 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 乘积 0 0 6 6 4 10 2 0 0 16 6 4 9 6 7 0 6 相加之和 0 0 6 6 4 1 2 0 0 7 6 4 9 6 7 0 6 8 最下面一行的总和为72; 除以10得到的余数为2; 证明此DFI编码错误。 8 CY/T 2082
22、020 附录 C (规范性附录) DFI 的使用 C.1文献片段的划分 对文献片段的划分和标识通常分为一般片段划分(A类)和特殊片段划分(B类)2种类型。 A类:一般片段划分 一般片段划分是按照文献的自然构成,遵循其原有的逻辑结构划分片段并标识,是对文献的最基 本的片段划分。例如,一篇文学作品,按照其章、节、自然段划分片段和确定片段层级,颗粒度级数 自左至右由高到低(颗粒度由大到小)。一般片段划分通常是由作者或出版者在文献首次发布时完成。 B类:特殊片段划分 出于对资源的某种特殊使用需求,将资源按照使用目的划分为片段并标识。通常是在一般片段划 分已经存在,并且不足以满足某种特殊使用需求时所进行
23、的片段划分。特殊片段划分既可以在一般片 段划分的基础上进行,也可以按照需要重新进行片段划分。例如,为满足某种应用需要仅对红楼梦 中的诗词进行片段标识;或因教学需要对某个文献中的一些词或句子进行片段标识。 注册者应根据使用需求确定选择文献片段划分和标识的类型。 C.2片段代码分段和长度的确定 登记者应根据文献的实际情况和使用目的,按照4.3的规定确定片段代码分段和长度。首先应确 定片段的分段,即按照使用目的确定的对文献片段切分的逻辑层级结构和级数。在某些应用中,如果 无需按逻辑层级分切片段,则可将片段代码不分段连续使用,此时通常按流水顺序赋予每个文献片段 代码。 确定片段分段(或不分段)后,须测
24、算每段所需要的最大数值。根据4.3的规则,当某一层级的 片段数量大于3位数(多于1000个)时,可将此层级片段按照3的整数倍增加位数,即可增至6位、 9位,这种情况通常出现在最小颗粒度级数字段。 片段代码分段和长度一经确定并在注册版本代码时上传给注册机构,即不可更改。 C.3权利限制和其他应用事项 登记者对其所注册的DFI版本不享有专有使用权,已注册的DFI版本均可供各方共享使用。在拟 对文献进行片段分切加工并赋予DFI时,应首先查阅该文献已经注册的DFI版本,如果已有与拟分切 的片段相同的版本,则可直接采用此版本,无须申请新的版本。 注册机构查检发现不同登记者注册的相同的DFI版本时,应撤销
25、后注册的版本,将注册机构解析 指向先登记的版本,并通知后注册版本的登记者。 正式登记注册的DFI须与按照相关法规分配给文献的整体标识符配合使用,方可确保DFI所标识 片段的唯一性。 给一个文献分配DFI,不改变文献原有的标识和相关属性,并与该文献的著作权状况无关。 9 CY/T 2082020 附录 D (规范性附录) DFI 元数据规范 D.1概述 本附录所规定的元数据以及其他元数据应按照DFI编码进行注册,注册机构应该制定恰当的架构 来表述这些元数据。 除本附录规定的元数据项外,注册机构和登记者可定义其他元数据项。 D.2DFI 核心元数据 DFI核心元数据见表C.1。 表 D.1DFI
26、核心元数据 核心要素 说明 示例 文献标识符 文献的整体标识符 ISBN 978-7-80702-357-0 文献名称 文献的题名 中国文化传播史研究 版本代码 该文献整体标识符项下的不同片段划 分版本编号 026 片段划分类型 A类:一般片段划分 B类:特殊片段划分 A类 片段代码格式 片段代码字长和分段情况 000-000-000000 片段特征码 对该片段内容使用GB/T 18238.3 2002第9章规定的算法生成的特征代码 片段内容:message digest 特征代码: c12252ceda8be8994d5fa0290a47231c1d16aae3 片段起始位置 该片段在文献中
27、的起始位置 文本文献:第2章第5节第2自然段起始 声音文献:2分35秒 片段结束位置 该片段在文献中的结束位置 文本文献:第2章第5节第2自然段结束 声音文献:3分57秒 其他相关标识符 该文献除整体标识符外,所涉及的其 他相关标识符,如 ISLI、ISNI 等。如无, 此项为空 ISLI 116063-4520086293791473426443001-9 登记者 此DFI编码的登记方 中国书籍出版社 分配日期 分配此DFI版本代码的日期 2019年XX月XX日 联系信息 登记者联系人名称、地址、电子邮箱 李大江,北京市丰台区三路居路97号, lidajiangcapp.org 10 CY/
28、T 2082020 参考文献 1ISO 17316:2015International standard link identifier(ISLI) 2GB/T 57952006中国标准书号 3GB/T 133962009中国标准录音制品编码 4GB/T 99992018中国标准连续出版物号 5GB/T 27937.12011MPR出版物第1部分:MPR码的编码规则 6GB/T 328672016中国标准关联标识符(ISLI) 7统一资源标志符,维基百科http:/zh.wikipedia.org/wiki/统一资源标志符 8Introduction to HTML4,W3C Recommen
29、dation.http:/www.w3.org/TR/REC-html40/intro/ intro.html 中华人民共和国新闻出版行业标准 文献片段标识符(DFI) CY/T 2082020 * 中国书籍出版社出版发行 北京市丰台区三路居路 97 号 邮政编码:100073 电话:(010)5225714352257140 北京睿和名扬印刷有限公司 各地新华书店经销 * 开本 880 毫米 1230 毫米1/16印张 1.25字数 15 千字 2020 年 12 月第 1 版2020 年 12 月第 1 次印刷 * 书号:35068197定价:20.00 元 如有印装差错由本社发行部调换 版权专有翻印必究 举报电话:(010)52257140 CY/T 208 2020