企业内部文档智能语义搜索方案.doc

上传人:twoload295 文档编号:382095 上传时间:2018-10-10 格式:DOC 页数:11 大小:1.17MB
下载 相关 举报
企业内部文档智能语义搜索方案.doc_第1页
第1页 / 共11页
企业内部文档智能语义搜索方案.doc_第2页
第2页 / 共11页
企业内部文档智能语义搜索方案.doc_第3页
第3页 / 共11页
企业内部文档智能语义搜索方案.doc_第4页
第4页 / 共11页
企业内部文档智能语义搜索方案.doc_第5页
第5页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 1 企业 内 部 文档 智能语义搜索方案 1. 背景和意义 近年来, 企业 文档 管理和检索方式 经历了 分门别类管理,数字信息化管理和全文搜索引擎三大阶段,使得企业利用 文档 信息的效率不断提高。但是随着信息化程度的不断提高,尤其是大数据数字浪潮的思维深入发展的背景下,目前信息化企业 文档 管理以及基于关键词的全文检索技术仍旧存在诸多的短板和问题,影响了企业自身知识利用价值的实际落地应用, 目前基于关键词检索的搜索技术存在信息丢失、返回信息太多、信息无关等局限性, 主要症结体现在如下方面: 1. 基于关键词的检索,对于绝大部分人来说存在一定的应用门槛,如何选取适当的关键词来找到需要的信息,

2、需要具备一定的搜索技巧和对业务问题的清晰认识。更多的时候,简单的关键词搜索返回的命中信息太多,还是需要人工阅读筛选真正有价值的内容。 2. 普通全文检索缺少真实世界的关联性 , 联想和类比是人类智慧过程的两种重要方法 。 在普通全文检索中 , 用户获得的还是碎片化的信息 , 最终依然需要进行大量的细致阅读和人工整理过程 , 从而 形成对 查询问题 的认识 。需要更智能的信息化方法 ,帮助人工建立关联分析体系,提高知识服务效能。 3. 在 海量的企业 文档 信息中,存在大量的隐性信息,这些隐性信息作为信息单元本身可能价值较低,也不好加以利用,或者虽然有价值,但是挖掘代价高,理解难度大。因此长期以

3、来,在企业 文档 管理中,得到大量应用的都是那些显性信息。如何利用好隐性信息,让企业的知识得到最大化的再利用,产生新的源源不断的价值,是大数据的核心体现。 面向企业 文档 管理现有信息化方案的不足和需求 , 本方案拟以自然语言理解与人工智能技术为基础 , 基于 SaCa DeepConig知识服务平台产品 实现 文档 管理中的智能语义搜索 , 对搜索结果进行更精确的知识挖掘 , 建立碎片信息间的分类体系与语义关联 , 发现利用隐性信息 。 为企业提供更加有效的知识管理服务系统 。 2 2. 企业文档 搜索方案功能特性 2.1 语义搜索 普通基于关键词匹配的全文搜索并不具备语义理解的功能。 比如

4、在全文搜索引擎中输入“计算机”为关键词,在返回结果中不会包含只有“电脑”这种表述的文档资料。在实际应用中,存在大量的同义词和近义词。通过 DeepCogni的语义扩展 算法可以 搜索 到被搜索词扩展之后的 相关 内容 。 例如 搜索“ java 读文件 ”时 ,通过语义扩展可以搜索 到“ java读取 文件 ” 、“ java读写 文件 ”“ java文件 读写操作” 等 内容。 图 1 相关词分析 基于语义的搜索引擎 使 搜索引擎的工作不再拘泥于用户输入的关键词 , 而是能够对这些关键词进行语义 计算 。通过在语义的层面上把文档中关键词和其映射的概念进行关联 ,对 文档 信息所蕴含的语义信息

5、进行充分挖掘 , 同时把用户的检索要求转换成相应的语义表示 。 借助语义搜索功能 , 企业人员在检索 文档 文件时 , 不再会精挑细选关键词组合 , 只需要准确表达自己的含义 , 相关的信息词汇 , 系统进行智能扩充 , 查询所有符合用户语义期待的命中结果 。 3 图 2 基于 内容的搜索 关键词扩展和智能提示 2.2 关联发现 通过 对 文档 资料进行语义标注 , 形成语义相似度 聚类特征、业务概念和业务事件三类对文档的语义标注,以语义标注为线索,可以组织 文档 间的多种关联关系。在用户检索查阅 文档 文件时,提供语义相关,概念相关和事件相关的 文档 检索相关列表,供用户比对查阅,帮助用户形

6、成网络化的综合分析环境,协助对隐性知识的发现和整理,有助于形成新的发现。 4 图 3 文件的复杂关联 如某业务员在查阅本部门之前的项目 文档 , 进行经验总结 , 检索系统通过事件关联 , 发现与项目事件互有影响的其他项目 文档 ; 通过概念关联 , 发现与本项目共享资源的其他技术文档 ; 通过语义相似性 分类标签,发现其他部门实施的类似项目。从而帮助业务员更加全面的获取了相关的经验知识,有助于从归档知识中产生新的价值。 2.3 智能推荐 文档 语义搜索引擎,通过用户搜索记录和业务资料的语义特征,计算用户行为画像,形成用户的兴趣图谱,将用户关心的分类、概念和事件关联的 文档 相关度提升,使得用

7、 户更容易获得自己感兴趣的 文档 检索内容。 用户使用 文档 智能搜索 的频次越多,历史越丰富,系统能够越好的理解用户的查询意图,熟悉用户的使用习惯。从而非用户提供更加准确的检索服务。 5 2.4 自然语言交互 图 4 自然语言交互取代高级搜索 用户 检索 文档 不仅仅可以通过关键词或分类进行检索 , 也可以通过普通的自然对话形式进行 文档 检索 , 语义引擎根据用户输入内容 , 通过语义计算 , 给出匹配度最高的知识答案 , 和 文档 资料搜索结果 。实现更高效的知识管理服务结果。自然语言查询使得检索和搜索更加人性化,信息查询变得更加方便、快速。 如 图 4用户查询 , 2017年上半年本部

8、门实施的建设项目都有哪些。系统通过语义理解可以给出 2017 年上半年的建设项目名称列表和相关 文档 资料链接列表。而不需用户通过高级搜索接口逐项定义。 2.5 结构化 查询 功能 对 于 企业文档搜索, 在 越来越 多 的 搜索 场景中 需要 类似于 SQL的结构化查询,比如预先 构建 搜索 文档的作者,机构, 领域或者 创作时间 等等 信息 , 用户搜索 时可以 通过 鼠标点选的 非键盘输入 方式来 选定 搜索 范围以及排序 策略。 在 一些专业领域甚至可以通过搜索引擎引入 一些 简单 计算 来 帮助用户 搜索 到精确结果,比如在 医疗领域, 医生想要 搜索到肿物大于某个限定大小 的 肿瘤

9、 病例 。6 图 5 病例搜索 中结构化查询实例 2.6 搜索 频道分类 企业中 文档数量众多, 在用户 对搜索内容有一定了解的前提下, 查找 指定内容时, 如果 可以让用户人工指定 频道分类 , 那么就 可以帮助用户获得 更加 精确的搜索结果。 DeepCogni语义 搜索引擎可以 帮助 用户构建 面向 搜索的频道分类, 并且 对于没有分类信息的文档 可以利用 DeepCogni 知识服务平台中的高质量分类模块帮助 企业 构建文档频道 分类 信息。 图 6 DeepCogni语义 搜索引擎 的 频道分类信息 7 2.7 搜索权限 管理 对于大型 企事业单位,庞大的 组织 架构以及 规范 的等

10、级制度 能 保证 组织 的顺利 运作。而 对于 组织 内的文档 来说 , 不同 职位的员工可以 查看 的范围 也是不同 的。因此 , 组织内的搜索服务同样 应该 通过 完善的 搜索 权限来 进行 管理 。 DeepCogni语义 搜索引擎 拥有 完善的权限管理体系, 可以 自己构建用户管理模块,也可以 直接复用 已经存在公司 自己 OA 等管理系统的用户体系 。 图 7 DeepCogni语义 搜索引擎 的权限管理 流程图 2.8 敏感词过滤 在 一些特定的 搜索 引擎中 , 敏感词过滤 作为特定 组件 , 对 整个 搜索引擎服务起着 敏感 信息过滤和 不良 信息监控的作用。 DeepCogn

11、i知识服务平台中的 敏感词识别模块 已经 在媒体 行业 得到 广泛 认可。模块 通过 独立研发的计算式过滤算法可以快速准确的识别各类敏感词以及 敏感词 变种 。 敏感词识别 模块 可以 作为 可选插件 形式 被 集成到语义搜索引擎 服务 中。 8 3 技术解决方案 3.1 搜索 引擎 服务 流程 9 DeepCogni语义 搜索引擎 由搜索 API、 核心 引擎、可选插件 、开源 引擎项目 以及 数据来源 5个 部分组成 。 搜索 API中 包括主搜索 接口 、下拉 列表接口 、推荐 搜索 接口、智能 提示接口 、结构化 搜索接口 以及频道 搜索接口 6个 接口组成。 接口服务 可以按照实际业

12、务系统需求 进行 配置,各个接口之间 耦合度 极低,可以随意搭配接口组合满足业务需要。 核心引擎 中包括 NLP模型、 频道 管理 、语义搜索 、 排序 策略 、关联 发现、 白名单 设置、 权限 管理、 结构化 索引、 智能 推荐 、输入 提示、输入 纠错 、 增量 加载,总共 12 个 功能点。 在 一 般 企事业的 搜索 场景 中, 当前 核心 引擎中的 模块 可以满足 99%的业务需求, 并且搜索 服务可以保证在多 功能点同时 运转的过程中也能 做到 毫秒级的应答 以及 足够的并发。 如果 客户除此之外还 对 搜索服务有特殊要求,可以 定制开发。 可选 插件 中 包括 敏感词 识别 、

13、文章 分 类 、 统计 分析、 语义 标注 、热点 发现、热词 分析等模块。 所有 可选插件 功能 都 是 DeepCogni知识服务 平台中的功能特性 ,可以保证和 DeepCogni语义 搜索引擎 的 无缝对接 , 并且 这些 功能点都在实际的业务场景中 , 性能和效果都得到了充分验证。 开源 引擎中 , DeepCogni语义 搜索引擎 可以 选用 ElasticSearch、 Solr、 Lucene。可以根据业务的实际需求采用对应 的开源框架 。 数据 采集指的是 DeepCogni语义 搜索引擎 可以接入 的数据类型,包括 爬虫 爬取 数据、 网页 、 文档、 Word文档、 PD

14、F文档 等等。 3.2 基于 语义标注 的数据加工 应用自然语言理解技术,可以将信息检索由简单的关键词层面提高到基于知识或概念的层面,使得字符词语具备了语义,而这种能力主要通过语义标注来实现。 基于语义的聚类分类 文档聚类计算是通过对 文档 库中的文档进行处理后,针对文档的内容格式,10 选择适当的降维计算模型,之后通过选择恰当的无监督机器学习聚类算法,在无样本标注的情况下对文档进行聚类计算。之后客户可以根据聚类中的某一个文档的内容对该类的所有文档进行标签标注,或者由算法给出该聚类下的文档的主题词进 行语义标签标注,以实现过滤,检索,分组等操作。 基于语义的聚类分类是对 文档 分类管理的重要补

15、充,突破了垂直业务单元对 文档 的分类管理,实现了语义上的广泛关联,有助于进行更好的综合分析与检索。 概念标注 抽取 文档 资源中概念, 利用已有语料结合用户标注语料,对 文档 文档中的资料进行抽取, 利用这些概念可以对资源进行标注、分类。 形成文档核心概念关联实体的发现,方便形成当案件的关联分析。同时,进行概念标注后的 文档 资料,可以进行以概念为字段的高级检索,更加精准的对 文档 进行专业管理。 事件抽取 抽取 文档 资源中的业务相关事件 , 利用事件集形成 文档 的高度抽象概括 ,方便进行事件视角的 文档 关联管理,分析企业事件的因果与相关性。同时采用事件对 文档 进行标注,方便以事件为搜索接口,准确地对相关 文档 进行检索。 3.3平台产品技术支撑 东软集团 SaCa.DeepCogni知识服务平台产品: 自然语言理解语义分析和知识管理服务技术,准确识别海量非结构化信息中蕴含的有效信息,深入提炼结构化分析。构建实体关联关系、事件时间趋势、事件结构化分布。从海量开放信息中挖掘背后的规律和线索 11 图 5 DeepCogni平 台产品主要功能

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > 方案计划

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1