ImageVerifierCode 换一换
格式:PPT , 页数:9 ,大小:593KB ,
资源ID:389238      下载积分:2000 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
如需开发票,请勿充值!快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
注意:如需开发票,请勿充值!
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【http://www.mydoc123.com/d-389238.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于LUCENE农业信息搜索引擎的实现.ppt)为本站会员(appealoxygen216)主动上传,麦多课文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知麦多课文库(发送邮件至master@mydoc123.com或直接QQ联系客服),我们立即给予删除!

基于LUCENE农业信息搜索引擎的实现.ppt

1、基于LUCENE农业信息搜索引擎的实现,*2009年10月16,1/14,提纲,第一章 开发背景和目的以及系统结构 第二章 相关技术 第三章 搜索引擎的总体设计 第四章 网络爬虫的设计 第五章 检索模块的设计 第六章 数据库设计 第七章 系统试验与应用 项目总结,开发背景和目的以及系统结构,像Google,百度这样的大型搜索引擎为我们提供了巨大的信息资源库。这些综合性搜索引擎虽然强大,但是使用它们来搜索像农业这样特定行业的专业信息时,就显得力不从心了。然而web方向的越来越趋于局部专业化,伴随着对主题的需求越来越多。用户希望主题信息获取能够做到领域内搜集到的信息更完全。信息更新速度更快。并能自

2、动发现领域内的主要信息资源。农业是我国的主要产业,农业信息是否全面,准确关系着农业的发展,目前我国有一些农业信息网站,但目前农村信息化存在一些弊端:,比如说农业信息片面,当地缺少具有公信力的农业服务平台,地方偏向性比较强。另外农业服务需要及时,准确的信息传递,然而相关人员总是花费大量时间检索资料,发布信息,劳动率低下。缺乏整合,缺乏比较专业权威的搜索引擎。所以我们考虑基于权威的可以信赖的农业信息网站,整合这方面的资源,专注非结构化信息分析整合和研究细分内容,专注提供搜索特定的农业产品和服务和市场的服务.意义在于: 第一是垂直上提供权威、精准、细分的检索服务。挖掘上说,随着农业海量信息深入挖掘的

3、不断走强,我们对信息的挖掘程度可以更深,从中提炼出的政策法规、价格行情等信息都可以成为行业参考。 第二是尽可能满足用户检索需求,提供全面,精确的查询,目的:从农业应用的需求考虑,探索一个利用Lucene和爬虫的搜索技术建立农业知识垂直搜索引擎,帮助广大用户及时获取农业相关的知识。用户可以精准的检索到农业相关信息。相关技术:在J2ee平台上,运用Java,Jsp技术以及基于Lucene 全文检索技术采用B/S结构实现业务功能系统使用Myeclipse集成开发环境开发, MySql数据库建表。在Tomcat服务器上运行调试。搜索引擎的工作原理基本分为网络爬虫模块,建索引模块,检索模块等3个部分组成

4、步骤; (1)派出网页搜索工具 (Robot)或者叫(Spider网络爬虫), Nutch等在Internet上搜索信息,并且把它们带回搜索引擎。然后解析HTML (2) 把信息进行分类索引,建立网页索引数据库或者索引文件 (3)通过Web服务器端软件,为用户提供浏览器界面下的查询。 如图所示:,搜索引擎总体设计,相关技术,图3.1农业信息搜索结构图,网络爬虫设计,根据系统的流程将其分为五个模块: 存储模块:负责数据的存储,包括将页面储存到磁盘、获取下一个未分析的页面等。 模块:判断Url是否已被抓取。 URL过滤器模块:Url过滤器,用于实现定向抓取。 HTTP模块:负责根据Url抓取页面。

5、 页面解析模块:页面的解析,提取包含的Url。,如何解析网页,因为Web中的信息都是建立在HTML协议之上的,所以网络机器人在检索网页时的第一个问题就是如何解析HTML。这部分主要是标题标签和超链接标签。 标题标签:运用了正则表达式做了匹配。其中有的网页可能标签大小写不一致,用 patten.CASEINSENSITIVE做了忽略大小写的判断这样简化了好多操作。 超连接标签解析:运用了正则表达式做了匹配标签,这部分主要涉及到了util和io两个包。此外还用了第三方开发包Lucene。因为抓取的网页中含有重复的网页,需要消除这些重复的网页,其中运用了MD5算法。 如图 4-2 解析网页中关键信息结构图 衡量爬虫性能的主要指标:响应时间,查全率和查准率,检索模块的设计,这部分包含:建立索引与检索两部分 建立索引: 索引文件的建立流程图如下:,谢谢!,

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1