1、主题分类词表描述规范 中华人民共和国新闻出版行业标准 Specifications for description of subject classification thesaurus CY/T 1602017 ICS 01.140.40 A 19 备案号:60909-2018 中华人民共和国国家新闻出版广电总局 发 布 2017-11-03 发布 2018-02-01 实施 CY/T 1602017 I 前言 I 1范围 1 2规范性引用文件 1 3术语和定义 1 4主题分类词表的组成 1 4.1词表结构 1 4.2词汇表结构 2 4.3分类表结构 2 4.4特征表结构 2 5主题分类词表
2、的编制 3 5.1词汇表编制 3 5.2分类表编制 4 5.3特征表编制 4 5.4词表信息描述 4 6主题分类词表的更新与维护 5 6.1原则 5 6.2方法 5 附录 A(规范性附录)词条编码原则与方法 7 附录 B(规范性附录)特征词编码方法与代码 8 附录 C(资料性附录)主题分类词表信息要素 10 参考文献 12 目 次 CY/T 1602017 I 本标准按照 GB/T 1.12009 给出的规则起草。 本标准附录 A、附录 B 为规范性附录,附录 C 为资料性附录。 本标准由全国新闻出版标准化技术委员会(SAC/TC 527)提出并归口。 本标准起草单位:北京拓标卓越信息技术研究
3、院、电子工业出版社、国防工业出版社、中国新闻 出版研究院等。 本标准主要起草人:安秀敏、李弘、张峻、王德胜、余敬春、田佳晔、谢冰、朱贺。 前言 CY/T 1602017 1 1范围 本标准规定了新闻出版领域主题分类词表的组成结构、编制、描述及更新与维护。 本标准适用于新闻出版领域主题分类词表的建设与维护。 2规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 48942009 信息与文献 术语 GB/T 255142010 健康信息学 健康受控词表 结构和高层指
4、标 3术语和定义 下列术语和定义仅适用于本文件。 3.1 主题分类词表 subject classification thesaurus 由词汇表、分类表和特征表构成的规范词的集合。 3.2 词汇表 terminology list 在一个特定的领域表示系统性概念的词汇集合。 改写 GB/T 255142010,定义 3.1。 3.3 特征表 attribute list 表示人物、地理、机构或事件名称等属性的专用概念的集合。 3.4 词条 terms 用于特定目的的词或词组。 3.5 类目 class 至少具有一个共同特征的单元的集合。 GB/T 48942009,定义 4.4.2.2.4.
5、3 4主题分类词表的组成 4.1词表结构 一个完整的主题分类词表由词汇表、分类表和特征表构成。主题分类词表结构如图 1 所示,描述 主题分类词表描述规范 CY/T 1602017 2 如下: a) 词汇表,主题分类词表的核心表,对词条代码、词条名称、词条信息等进行描述; b) 分类表,主题分类词表的辅助表,对词汇表中的词条进行分类,又称范畴表; c) 特征表,主题分类词表的辅助表,对词汇表中的词条进行补充描述。 图 1主题分类词表结构 4.2词汇表结构 词汇表由词条代码、词条名称、词条释义和词条属性组成。词汇表的组成结构如图 2所示,描述如下: a) 词条代码,描述词条名称的唯一代码,词条编码
6、原则与方法见附录 A; b) 词条名称,描述词条的中文名称、英文名称、汉语拼音名称和拉丁名称等一组信息; c) 词条释义,描述词条的内涵和外延定,说明或解释性等文字; d) 词条属性,描述词条的性质,包括词间关系、所属分类和所属特征等。 图 2词汇表组成结构 4.3分类表结构 分类表由类号、类目和类目注释组成。分类表的组成结构如图 3 所示,描述如下: a) 类号,标识类目的代码; b) 类目,通常由大类、中类和小类构成; c) 类目注释,类目的说明性文字。 图 3分类表组成结构 CY/T 1602017 3 4.4特征表结构 特征表由特征词类型、特征词代码、特征词和特征词注释组成。特征表组成
7、结构如图 4 所示。特 征词编码方法与代码见附录 B。特征表结构描述如下: a) 特征词类型,表示特征词所属关系; b) 特征词代码,描述特征词的标识; c) 特征词,描述事实、数值、概念、原理、技能和规则等知识类型的词; d) 特征词注释,描述特征词的说明性文字。 图 4特征表组成结构 5主题分类词表的编制 5.1词汇表编制 5.1.1词源 选词来源主要包括: a) 工具型资源,包括辞 / 词典、主题词表、相关标准、年鉴、百科全书和手册等; b) 法律法规资源,包括政策、法律和法规等; c) 出版物资源,包括学术图书、学术期刊和报纸等; d) 相关文献资源,包括学位论文、专利、会议和档案文献
8、等; e) 其他资源,包括网络词库和在线百科等。 5.1.2选词 选词的范围及基本原则包括: a) 应符合所确定的专用词表的学科范围; b) 应具有单一性,词形简洁、概念明确; c) 应以名词或名词性词组为主,避免使用单字型动词,慎用形容词、副词和数量词; d) 同一事物具有多个名称时均应入选; e) 选用全称作为主题词。 5.1.3确词 确词的基本规则包括: a) 依据词汇表所覆盖的学科范围,确定具有标引需求的词或词组; b) 确定通用名词和术语以及专指性强、使用频率高的名词和词组; c) 不采用由 2 个或 2 个以上概念所构成的复合词,不采用由整体和部分所构成的复合词。复合词 应避免使用
9、标点符号。 CY/T 1602017 4 5.1.4释义 词的释义基本规则包括: a) 同一词条在不同场景下具有不同含义时,应注明其使用场景; b) 词条定义易引起歧义时,须加词条注释; c) 应使用自然词序,不应使用倒序形式。 5.1.5词间关系 5.1.5.1词间关系类型 基本词间关系类型主要包括: a) 等同关系。表示概念相同或相近的词间关系,包括全称与缩略同义、本名与别名同义等。词表 中通常采用“用”、“代”词间关系标识符; 示例:科学技术(正式主题词) D 科技(非正式主题词) b) 层级关系。表示主题词概念中上位概念与下位概念的隶属关系; 示例:联合国 S 国际组织 c) 相关关系
10、。某一主题词虽不具有同义和准同义关系,也不具有上位和下位关系,但使用中具有 密切联系。 示例:技术评价 C 可行性评价 5.1.5.2词间关系符号 词间关系符号使用 1 位汉语拼音字母表示,包括: a)Y = 用,主题词指引符; b)D = 代,非正式主题词指引符; c)S = 属,上位主题词指引符; d)F = 分,下位主题词指引符; e)C = 参,参照词指引符; f)Z = 族,族首词指引符。 5.1.5.3词间关系表达 词间关系类型与符号的关系见表 1。 表 1词间关系类型与符号 名称 词性 符号 词间关系 用项 主题词 Y 等同关系 代项 自由词 D 属项 广义词 S 层级关系 分项
11、 狭义词 F 参项 相关词 C 相关关系 族项 族首词 Z CY/T 1602017 5 5.2分类表编制 5.2.1选用分类表 根据学科范围和业务需求可选用成熟的分类体系,可参考各专业领域编制的分类表(法)或主题 词表中的分类表。 5.2.2编制分类表 当一个词汇表没有适用的分类法,可在现有分类法的基础上进行类目细化,或参考现有分类法进 行编制。 5.3特征表编制 特征表作为分类表的扩展信息,由事实、数值、概念、原理、技能、规则和其他等知识类型的特 征词组成。各专业领域主题分类词表可根据需求编制特征表。 5.4词表信息描述 主题分类词表信息由中文名称、英文标签、说明、类型、可选性和取值组成。
12、主题分类词表信息 要素参见附录 C。 6主题分类词表的更新与维护 6.1原则 主题分类词表应定期修订并发布,增补、删除、修改的基本原则如下: a) 随时记录原则,发现问题应随时记录并填写记录卡; b) 及时修改原则,发现错误应立即修改并填写记录卡备案; c) 定期更新原则,对于发现的问题统一协调,定期更新; d) 逐步完善原则,新编主题分类词表需要在实践中逐步完善,发现问题及时记录,定期更新。 6.2方法 6.2.1增补 主题分类词表应根据应用情况的统计进行增补,增补新词应符合如下条件: a) 反映新学科和新理论等概念和事件等,作为新词; b) 词表中无对应的词,作为新词; c) 使用率、检索
13、率高的热词,作为新词。 6.2.2删除 在使用中应及时删除错误的、重复的、过时的、标引率和检索率低下的词,删除的词和代码不应 重复使用。 6.2.3修改 在使用中发现词在类目、概念、词形、参照关系上存在矛盾或错误时应及时修改。 CY/T 1602017 7 A.1 词条编码原则 词条编码的基本原则包括: a) 计算机可处理; b) 具有层级性; c) 具有唯一性; d) 具有可扩展性; e) 具有冗余性。 A.2词条编码方法 词条编码的基本方法及要求包括: a) 按照主题词的层级编码,每一层级编码数位尽量保持一致; b) 可选择字母和数字组合方式编码; c) 每个主题词应有一个唯一的编码。 附
14、录 A (规范性附录) 词条编码原则与方法 CY/T 1602017 8 B.1特征词编码方法 特征词用以标引词汇表中词条的属性特征,其编码方法由 1 位大写英文字母和 1 位数字组成并可 根据需求扩展。 B.2特征词代码表 特征词代码表由特征词类型、特征词代码、特征词和特征词注释构成。特征词代码表见表 B.1。 表 B.1 特征词代码表 特征词类型 特征词代码 特征词 特征词注释 事实型(A) A1 人物 描述人物名称 A2 机构 描述机构、团体和事业单位等名称 A3 时间 描述人物、机构、事件等时间范围和时间点 A4 地点 描述人物、机构、事件所在地理位置的名称 A5 事件 描述有重要影响
15、事件的名称 A9 其他事实 描述其他事实 数值型(B) B1 常数 描述有特定意义且固定不变的数值 B2 观测数据 描述通过观察、测量直接取得的数据 B3 统计数据 描述统计工作活动过程中所取得的各种数据 B9 其他数值 描述其他数值 概念型(C) C1 术语 描述专业用语及其相关解释 C2 定律 描述客观规律和科学概括的表述等 C3 定理 描述经过逻辑论证的具有真实性质并被确定了的命题或公式等 C4 量纲 描述特定物理量或物理现象度量 C5 单位 描述人为规定的量度标准 C9 其他概念 描述其他概念 原理型(D) D1 学术理论 描述学术研究中提出的评价、看法、提法或程式等 D2 机理 描述
16、为实现某一特定功能,一定的系统结构中各要素的内在工作方式 以及诸要素在一定环境下相互联系、相互作用的运行规则和原理等 D9 其他原理 描述其他原理 技能型(E) E1 策略 描述根据事态和环境变化而制定的行动方针和工作方法等 E2 方法 描述为达到某种目的而采取的途径、步骤和手段等 E3 程序 描述事物进行过程中的次序或顺序的布置和安排等 附录 B (规范性附录) 特征词编码方法与代码 CY/T 1602017 9 特征词类型 特征词代码 特征词 特征词注释 E9 其他技能 描述其他技能 规则型(F) F1 法律 描述有关法律、法规的条文 F2 标准 描述针对某些问题制定的共同和重复使用的规则
17、 F3 规章制度 描述规则和制度,约束相关人员行为和事务处理方法等 F9 其他规则 描述其他规则 其他类型(Z) Z 其他类型 描述其他类型 CY/T 1602017 10 C.1 主题分类词表信息要素 主题分类词表的信息要素见表 C.1。 表 C.1 主题分类词表信息要素 中文名称 英文标签 说明 类型 可选性 取值 主题分类词表 描述完整主题分类词表结构的一组信息 字符 必选 词汇表 描述词条代码、名称、释义和属性的一组信息 字符 必选 词条代码 描述词条名称唯一代码的一组信息 数字 必选 词条名称信息 描述词条名称及属性的一组信息 字符 必选 正式主题词 词条名称,是规范化的词或词组,
18、用于标引的正式词 字符 必选 非正式主题词 非规范化的词或词组(含同义词、近义词等), 具有词间关系,与主题词无属分关系, 不用于标引的词 字符 可选 自由词 不规范的词 字符 可选 英文主题词 正式主题词的英文名称 字符 可选 拼音主题词 正式主题词的汉语拼音名称 字符 可选 词条释义 词条的内涵和外延的限定, 适用范围或词义说明等 字符 必选 词条属性信息 描述词条属性的一组信息 字符 必选 词条特征 采用代码方式对词条性质所做的描述 字符 必选 Y=用项 D=代项 S=属项 F=分项 C=参项 Z=族项 相关词条代码 属性所涉及的词条ID 字符 必选 分类表 描述词条分类表的大类、 中类
19、和小类的一组信息 字符 必选 分类表名称 所采用分类表的名称 字符 有则必选 类目层级 描述类目在分类表中属于的类目级别 数字 必选 1=大类 2=中类 3=小类 9=其他 类目 词条在分类表中的类目名称 字符 必选 类目代码 词条所属分类的类目编码 字符 必选 附录 C (资料性附录) 主题分类词表信息要素 CY/T 1602017 11 中文名称 英文标签 说明 类型 可选性 取值 类目注释 对类目的说明 字符 有则必选 特征词表 描述词表特征词表的一组信息 字符 有则必选 特征词类型 表示特征词所属类型 字符 有则必选 A=事实型 B=数值型 C=概念型 D=原理型 E=技能型 F=规则
20、型 Z=其他 特征词代码 描述人物、事件、地理、 时间等特征词的代码(见取值) 字符 有则必选 见表B.1 特征词 描述人物、事件、地理、时间等特征词 字符 有则必选 见表B.1 特征词注释 对特征词的说明 字符 有则必选 见表B.1 CY/T 1602017 12 1 GB/T 154171994 文献 多语种叙词表编制规则 2 GB/T 194862004 电子政务主题词表编制规则 3 GC/ZX 222015 知识资源通用类型 参考文献 中华人民共和国新闻出版行业标准 主题分类词表描述规范 CY/T 1602017 * 中国书籍出版社出版发行 北京市丰台区三路居路 97 号 邮政编码:100073 电话:(010)5225714352257140 京鲁图文印刷包装有限公司印刷 各地新华书店经销 * 开本 880 毫米 1230 毫米1/16印张 1字数 26 千字 2018 年 3 月第 1 版2018 年 3 月第 1 次印刷 * 书号:35068152定价:16.00 元 如有印装差错由本社发行部调换 版权专有翻印必究 举报电话:(010)52257156 CY/T 1602017