1、第三章 信息检索原理及检索步骤,本章要点: 文献信息检索基本概念 文献信息一般检索步骤 检索概念的分析、提取和扩展 检索策略的构成,1. 信息检索基本概念,信息检索的定义 文献信息的内外部特征 文献信息检索的一般原理 文献信息检索的类型 检索效果评价,1.1信息检索定义,狭义:从任何信息集合中查找所需信息的活动、过程和方法。 广义:信息的检索包括信息存储。合并称为信息存储与检索.,信息检索(information retrieval),信息检索广义上是指将杂乱无序的信息按一定的方式组织和存储起来,并根据信息用户的需求找出相关信息的过程和技术,全称是”信息存储与检索”(Information S
2、torage and Retrieval).,狭义的信息检索指的是后一过程.,1.2 检索语言(Retrieval Language)是用来描述信息源特征和进行检索的人工语言。,作用:它是沟通信息存储与信息检索两个过程的桥梁。在信息存储过程中,用它来描述信息的内容和外部特征,从而形成信息标识;在检索过程中,用它来描述检索提问,从而形成检索标识;当检索标识与信息标识完全匹配或部分匹配时,结果即为命中文献。,检索语言的类型:按照表达文献的特征划分,文献信息的内外部特征,内容特征 表达文献信息主题内容的检索标识 内容特征 文献模糊对应 外表特征 与文献主题内容没有关系或关系不大的信息 外表特征 文献
3、一一对应,1.3 文献信息检索一般原理,存储选择和收集文献提取文献信息的内外部特征标引,整理,形成检索系统(工具) 检索分析信息需求确定检索课题构建检索提问式从检索系统中查获所需信息,文 献 源,文献 选择 收集,文献 特征,标识语言,检索系统,数据库,检索 提问式,匹配,检 索 结 果,用 户,信 息 需 求,检索 课题,分 析,标 引,反 馈,1.4文献信息检索的类型:按检索内容,文献检索 (相关性检索)检索结果为文献原文或线索全文检索 书目检索 数据检索 (确定性检索)检索结果为数值、数据 事实检索 (确定性检索)检索结果为事实、概念,,是以文献线索为检索内容的文献检索。即检索系统中存贮
4、的是书目、索引、文摘等二次文献,检索结果获得的是与检索课题有关的一系列文献线索。,书目检索(directory),,是以文献所含的全部信息作为检索内容的文献检索。即检索系统存贮的是整篇文章或整部图书的全部内容。,全文检索(full article),,又称数值检索,是以具有数量性质,并以数值形式表示的数据为检索内容的信息检索。即检索系统中存储的是大量的数据,包括物质的参数、电话号码、观测数据、统计数据等,也包括图表、化学分子式、物质的各种特性等非数字数据。,数据检索(data),,是以具体事项为检索内容的信息检索,要求从检索系统存储的各种原始信息资源中查出专门的事实材料。如,某一人物的查找,某
5、一事件的查找等,事实检索(fact),1.4 文献信息检索的类型:按检索手段,手工检索与检索工具直接“对话”,依靠检索者手翻、眼看、脑子判断而进行的检索。特点:方便灵活,判别直观,查准率高、检索效率低,漏检现象比较严重计算机检索利用计算机和一定通信设备查找文献信息的检索特点:速度快,效率高,查全率较高、成本高,回溯年份有限,查准率不尽如人意,1.4 按检索手段划分,手工检索与计算机检索的比较,1.5 检索效果的评价,检索效果(Retrieval Effectiveness)是指检索系统检索的有效程度,它反映了检索系统的能力。包括技术效果和经济效果。,克兰弗登(Cranfield)评价系统性能的
6、指标: 收录范围 查全率 查准率 响应时间 用户负担 输出形式,查全率是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。可用下式表示:,查准率它是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。可用下式表示:,查全率和查准率在一定程度上成反比关系。应根据具体课题的要求,合理调节查全率和查准率,保证检索效果。,A,C,D,B,90,90,50,40,20,60,40,70,P,R,查全率(R)和查准率(P)关系曲线图,理论上,C和D之间即检索的最佳效果,2 信息检索系统,印刷型信息检索系统:目录、题录、文摘、索引 计算机
7、信息检索系统:文献信息数据的处理和维护子系统词表和标引子系统检索子系统,3. 文献信息的一般检索步骤,分析研究课题,明确检索要求 选择检索工具或检索系统 确定检索途径 实施检索,记录和阅读文献线索 索取原始文献,3.1 研究课题的分析,分清课题性质前沿探索性 调查研究性 面象应用性 课题背景知识的获取利用网络搜索引擎查阅图书馆相关馆藏,专著、工具书询问专业人员 概念(检索词)提取主要检索词、辅助检索词、禁用词例如:关于中国唐诗的韵律研究Study on the market management in China,3.1 课题分析,明确文献检索的目的;明确课题要解决的实质问题;明确有哪些主题概
8、念;各主题概念之间的关系;明确课题涉及的学科范围;明确课题所需文献信息的语种、时间范围等具体要求。,4 检索工具(系统)选择原则,根椐检索目的 根据信息需求的内容、专业范围 根据数据库记录的文献来源,4.选择检索系统,选择检索工具时要考虑:专业性,即选择与学科专业相关的工具,特别注意跨学科领域内容。权威性,尽量选择该学科的权威性检索工具。了解检索工具收录的范围,包括时间跨度、地理范围、文献语种、类型、揭示深度等。了解检索工具的检索方法和系统功能,中文检索系统可考虑CNKI、万方、维普数据库,外文数据库可考虑使用Science Direct、Springer、John Wiley、WOS等。,5
9、. 确定检索途径,开始查找信息的入口点 题名途径 著者途径 序号途径 主题(分类)途径,选择合适的检索途径:题名途径(Title)责任者途径(Author)机构途径(Affiliation)序号途径(Code)分类途径(Classification)主题途径关键词途径其它途径,文献检索及检索式的调整,根据课题的已知条件和课题范围和检索效率要求,选择合适的检索途径。题名/关键词/摘要/主题/全文,主题途径,分类检索语言(分类法、分类表)分类表,依据学科之间的逻辑归属关系,采用树型层次结构,列举出人类全部知识类别,并对每一知识分别标以相对固定的类号代码形成的一种类表。通常是一种从总到分、从一般到具
10、体,层层划分、逐级展开并具有某种符号代码体系的知识体系表。特点:常落后于当前研究现状,分类表相对呆板的学科关系使得确定前沿概念、跨学科概念或非常具体的概念分类困难。 主题检索语言关键词自然语言性质的主题语言,自由词,指从标题、文摘或正文中抽出的能表达文献主题内容的实意词。自然性,随意性。主题词(叙词)以正式、规范的词或词组形式固定各种事物概念。从自然语言中优选出并经规范化处理的名词术语。,分类法就是按照文献信息的内容,根据学科之间的逻辑归属关系,将各种概念按学科性质进行分类和系统排列的语言,反映事物的从属、派生关系,从总体到局部层层划分展开,构成一个完整的分类类目表。因此,分类法通常是指一种从
11、总到分,从一般到具体、层层划分、逐级展开并配以某种符号代码体系的知识体系表,是一种等级体系。具体体现为用分类号和类名来表达信息的主题概念。,5.1 分类检索语言(1),分类语言检索的优点:可以检索到某学科或专业的所有文献,具有较高的查全率。分类语言检索的缺点:分类语言落后于现状,分类表学科关系呆板使得跨学科概念等都比较困难。需要注意的是:不同的分类法的设类原则和分类代码的形式是不同的。中国图书馆图书分类法美国国会图书馆分类法杜威十进位分类法 IPC国际专利分类法,5.1 分类检索语言(2),中图法分 5个基本部类,将知识门类分为“哲学”、“社会科学”、“自然科学”三大部类。马克思主义、列宁主义
12、、毛泽东思想是指导我们思想的理论基础,作为一个基本部类,列于首位。此外,考虑到图书本身的特点,对于一些内容庞杂,类无专属,无法按某一学科内容性质分类的图书,概括为“综合性图书”,作为一个基本部类,置于最后。在此基础上扩展为 22个大类。标记符号采用汉语拼音字母与阿拉伯数字相结合的混合号码制。,中图分类法(1),在中图法以及任何类似的分类表中,被区分的类称为上位类, 被区分的类称为上位类,区分出来的就是下位类,上下位类之间的关系反映了概念外延的包含与从属关系。处于同一上位类下的同一层次的下位类称为同位类。处于同位类关系的类目在概念上是排斥的。为了,反映学科之间的属分关系,分类表的类号每增加一位字
13、母和数字就代表增加一级分类在理解类目代表的含义时,下位类所包含的类目含义应该和它的上位类号所包含的含义结合起来。,中图分类法(2),D9 法律90 法的理论(法学)91 法学各部门92 中国法律920.0 理论 (类名含义:中国法律理论)921 国家法、宪法923 民法.,涉及二个或二个以上概念的课题属于多概念课题,对多概念课题缺点分类关系时,应注意以下几点: .并列概念课题:对于涉及同一研究对象的几个方面或者涉及几个并列研究对象的课题,凡是有主次关系的,应取其重点或主要研究对象归类。设计统一研究对象几个方面的都需要检索时,应在所涉及的几个类目中同时查找。比如:“新闻宣传研究”,如果侧重于“新
14、闻”就取“G212 新闻财富和报道”,如果侧重宣传,则取“G223 广播电视宣传和群众工作”。如果设计二个方面时,“新闻”和“宣传”都要查找。,中图分类法 (3),涉及二个或二个以上概念的课题属于多概念课题,对多概念课题缺点分类关系时,应注意以下几点: .应用性课题:研究一种理论、方法等在某方面应用或对某方面的影响的课题,应在所应用或受影响的类目查找。例如:“计算机在人口预测方面的应用”就归入“人口预测” .上位类分类法:这种归类法是一种特殊的分类方法。它是指欲查课题在分类表中无符合要求的专指类目时,可以归入它的紧邻上位类。,中图分类法 (4),主题语言:自然语言和人工语言,自然语言:自然表达
15、某一概念的语言,没有强制性的规定。如在文献检索中,关键词(Key words)等用的就是自然语言。,人工语言:指的是人为规定的概念表达语言,通俗地说,就是某个概念你必须用规定的语言来表达,如文献检索中的主题词、叙词等用的就是人工语言。如:自行车(脚踏车、单车),西红柿(番茄、洋柿子)、马铃薯(土豆)、玉米(包谷),主题语言:自然语言(关键词)(1),关键词(Key words):是一种自然语言性质的主题语言。具体说,是指从文献的题目、正文或摘要中抽出的能表达文献主题内容的具有实质意义的语词。 关键词基本上不对词语加以控制,具有自然性和随意性。由于关键词这个特点,使得单一的关键词检索容易造成漏查
16、。,主题语言:自然语言(关键词)(2),确定课题关键词的步骤: 分析课题,提取概念:对课题仔细进行分析,分析出课题涉及的事物名称、研究的主要手段、方法、目的,最主要的事物名称应作为首先考虑的检索概念。 整理概念,扩充同一词汇:将分析所得的概念整理归纳,对每一个概念用同义次、近义词、缩写词等予以扩展。 运用分析所得词汇试查,确定课题适用的关键词。,主题语言:人工语言(主题词、叙词)(1),主题词(叙词):指从自然语言中优选出来并经过规范化处理的名词术语。国内常用的有汉语主题词表及个数据库特定的主题词表。 叙词语言和分类语言不同的是,主题词表中的所有正式主题词可以根据需要将它们组配起来,用一表达复
17、杂的概念。,主题语言:人工语言(主题词、叙词)(2),确定主题词步骤: .课题分析:根据课题涉及的主要对象,研究手段,使用方法、条件、研究的目的、用途做深入分析,提取课题研究的主要事物概念。 .查表选词:在分析出的概念基础上对课题做试标引。 a.用相对应的主题词直接标引 b.对多概念主题或复合主题用组配和上位等方式进行标引: 多概念主题指主题要素由不相容的逻辑关系构成的课题,主题语言:人工语言(主题词、叙词)(3),确定主题词步骤: .查表选词:在分析出的概念基础上对课题做试标引。 a.用相对应的主题词直接标引 b.对多概念主题或复合主题用组配和上位等方式进行标引: 多概念主题指主题要素由不相
18、容的逻辑关系构成的课题,包括矛盾关系、反对关系,对这些多主题课题做标引时,应分别选用主题词。,主题语言:人工语言(主题词、叙词)(4),确定主题词步骤: .复合主题课题指主题要素之间的关系是相容关系的课题。 复合主题所分析出主题要素之间包括同一关系(比如微机和电脑),属种关系和全面与某一方面的关系(比如中国历史和清史,经济运行指标和GDP),一般是上下位概念的关系,以及交叉关系(比如中国人和学生)。各主题词要使用适合课题的专指性的正式主题词。上位类标引是指当主题词表中没有对应的主题词时,又不能使用组配法标引时可采用最近一级的上位类词标引。,主题语言:人工语言(主题词、叙词)(5),确定主题词步
19、骤: .试查定词:使用主题词表选择的主题词,都必须通过主题索引试查,由实际检索结果来确定究竟哪些词是可用的,哪些词不可用。,6 查找检索词:各类文献信息的文献类型标识,文献类型标识 主要可以参考:信息与文献 参考文献著录规则 (国家标准 2015) 分类标识 可析出的主题概念(检索词:关键词和叙词),6 查找检索词:各类文献信息的文献类型标识,通过对课题的描述语句的分析,将课题所涉及的 词语分成主要检索词、辅助检索词和禁用词三类。主要检索词是指与课题研究的对象、方法有关的特指性事物名词,辅助性检索词是指泛指性名词,它们只在检索结果过多需要限制时使用。禁用词是指介词、连词等虚词,一般不做检索词用
20、。,关键词或叙词、主题词选词特点(1),是能够揭示主题内容的语词 关键词应该是表示最小概念的语词,虚词(不可用):连词、副词、介词、助词、语气词,宽泛概念的词(不可用):研究、技术、问题、方法 ,关键词或叙词、主题词选词特点(2),方法:切分、去除、替补 注意: (1)准确、专业。 不要将一些意义广泛的词作为检索词,如研究等。 (2)全面。考虑:a 基于概念的上下位词,如可再生能源与太阳能。b 同一检索词的不同表达方式,如白血病与血癌。 c 基于检索结果的同义词或近义词。,6.1 提炼检索词,6.2 概念(检索词)的扩展(1),同一概念的扩展 查询同一事物的学名和俗名: 汉语与中文 查询同一事
21、物的简称、全称、音译和意译:互联网与因特网,上海与沪,中央电视台与CCTV;查询统一事物的反义词:廉洁与腐败 查询不同的词形:art与arts;colour与color;draw与drawing,6.2 概念(检索词)的扩展(2),基于内容分析的概念扩展上位概念扩展法是分析检索对象的学科归属。下位概念扩展法又称概念分析的树形展开法。隐含主题(显见主题)扩展法:所谓隐含主题,是文献或课题中,未用显而易见的表达方式:抽象与具体关系不同角度观察关系概念上下位关系专利与知识产权;唐诗与古诗法规规定、条例;西部云南、贵州、四川等上海图书馆书目数据库系统公共图书馆,图书馆自动化系统,6.2 概念(检索词)
22、的扩展(3),基于检索结果的概念扩展:对初步检索结果进行分析,往往能够得到与课题 相关的新的检索概念,将这些概念经过重新组合,就可以达到扩展检索结果的目的。在实际检索中,可以根据需要,选用由上述方法得到检索概念,从而扩展检索所得。,“应用语言学”课题概念扩展示例,关键词,外商投资管理外商 投资 管理独资 合资 资本 股权 法规 规定 主题词 外资利用 + 管理,6.3 选词注意事项,选词要准确 重视概念扩展,不遗漏表达同一概念的相关词 避免选用使用频率过高的词,如技术、方法、研究等 不要单独使用多义词,如china 选词要符合所用检索工具(数据库)的要求,如不同数据库所规范的主题词有时是不相同
23、的。,检索策略又称提问逻辑,即对多个检索词之间的相互关系和检索顺序作出的某种安排。构成检索策略,即构建检索式,7. 检索策略构成方法,检索式是检索策略的逻辑表达式,是用来表达用户检索提问的,由基于检索概念产生的检索词和各种组配算符构成。,组配算符通常有布尔逻辑算符、截词符(通配符)、位置算符、嵌套算符(优先算符)四种。,7.1 构造检索式,布尔逻辑算符优先算符截词算符字段限制词组或字符串,7.2 计算机检索算符主要包括,布尔逻辑组配运算是采用布尔代数中的逻辑“与”逻辑“或”、逻辑“非”等算符,将检索提问式转换成逻辑表达式,限定检索词在记录中必须存在的条件或不能出现的条件。凡符合布尔逻辑所规定的
24、条件的文献,即为命中文献。,布尔逻辑算符组配检索,布尔逻辑算符,逻辑或(OR)运算符用来组配具有并列关系、概念相同或相近的词,如同义词、相关词等。扩大检索范围,提高查全率。A+B 例:EBSCOS1 1834 enterpriseS2 2022 companyS3 3647 enterprise OR company,A,B,布尔逻辑算符,逻辑与(AND)运算符用来组配具有相互交叉限定关系的概念。缩小检索范围,提高查准率。A*B 例:EBSCOS1 12940 ChineseS2 2173 literatureS3 842 Chinese AND literature,A,B,布尔逻辑算符,逻
25、辑非(NOT)运算符用来排除含有某些词的记录。缩小检索范围,提高查准率。有排除掉相关文献的可能,慎用A-B 例:COMPENDEX(1998)S1 110 patentS2 325 GermanS3 108 patent NOT German,A,B,优先算符,混合使用逻辑符,其运算顺序为:NOT AND OR ()改变运算顺序例: S1 A OR BS2 C OR DS3 S1 AND S2(A OR B) AND (C OR D),截词算符,指在检索词的某个局部截断,利用某些检索词的词干或不完整词形加上截词符进行检索。查找某一词干的不同变化形式防止漏检,提高查全率常见的有: ?、*、$、%
26、例:manag*,可检出manage manager managementmanaging managed,字段限制,指定字段进行检索 提高查准率 例:题名=中国经济 * 年份=2005TI (education) AND AB (Chinese),词组或字符串运算符,“ ”,以引号中的词组或字符串进行精确匹配检索例:information seeking“information seeking”,构造检索表达式注意事项:1 同义词或近义词之间用“逻辑或” 组配2 所有标点符号均在英文状态下输入。3 注意优先算符()的使用。,7.3 检索效果不佳的主要原因,检索思维上的缺陷不懂变换和扩展检索词
27、不能很好地切分关键词对检索抱有畏惧心理 检索工具选择上的缺陷习惯于搜索引擎而忽视数据库忽略文摘索引库 检索方法上的缺陷只会用初级检索功能不善于利用精炼结果的各种选项未对检索词进行限制,包括字段限制、时间限 制、分类限制等,7.3 检索效果不佳的主要原因,一般来说,当检索结果不理想时,可以从以下几点考虑检索式的调整:(1)检索词是否准确?是否有同义词、近义词或其它隐含的词未被抽取。(2)检索式是否准确?是否有全角字符?组配算符是否正确合理?(3)检索途径是否合理?可考虑从不同的检索途径进行试检索,必要时用全文检索。,8 检索结果的处理,检索结果的处理包括文献信息的选择、下载、存盘以及文献的阅读与
28、引用。对于有参考价值、拟在论文写作过程参考或引用的文献,要逐篇下载,并将所有下载的文献信息按引文格式存盘,以便在论文的参考文献列表中使用。,实 例,敦煌壁画艺术研究 扩展概念:敦煌,敦煌壁画,敦煌艺术,敦煌文化,莫高窟,石窟,艺术研究 检索策略:敦煌 AND(莫高窟 OR 石窟)移动通信位置服务的研究 扩展概念:移动通信移动电话手机;位置定位 检索策略:(移动通信 OR 移动电话 OR 手机)AND(位置 OR 定位)我国风险投资面临的困境及对策研究 扩展概念:我国中国国内;风险投资科技投资;困境困难形势 检索策略:(我国 OR 中国 OR 国内)AND(风险投资 OR 科技投资) AND(困境 OR 困难 OR 形势),