基于LUCENE农业信息搜索引擎的实现.ppt-资源下载-麦多课文库

基于LUCENE农业信息搜索引擎的实现.ppt

1、基于LUCENE农业信息搜索引擎的实现,*2009年10月16,1/14,提纲,第一章开发背景和目的以及系统结构第二章相关技术第三章搜索引擎的总体设计第四章网络爬虫的设计第五章检索模块的设计第六章数据库设计第七章系统试验与应用项目总结,开发背景和目的以及系统结构,像Google,百度这样的大型搜索引擎为我们提供了巨大的信息资源库。这些综合性搜索引擎虽然强大，但是使用它们来搜索像农业这样特定行业的专业信息时，就显得力不从心了。然而web方向的越来越趋于局部专业化，伴随着对主题的需求越来越多。用户希望主题信息获取能够做到领域内搜集到的信息更完全。信息更新速度更快。并能自

2、动发现领域内的主要信息资源。农业是我国的主要产业，农业信息是否全面，准确关系着农业的发展，目前我国有一些农业信息网站，但目前农村信息化存在一些弊端：，比如说农业信息片面，当地缺少具有公信力的农业服务平台，地方偏向性比较强。另外农业服务需要及时，准确的信息传递，然而相关人员总是花费大量时间检索资料，发布信息，劳动率低下。缺乏整合，缺乏比较专业权威的搜索引擎。所以我们考虑基于权威的可以信赖的农业信息网站，整合这方面的资源,专注非结构化信息分析整合和研究细分内容，专注提供搜索特定的农业产品和服务和市场的服务.意义在于：第一是垂直上提供权威、精准、细分的检索服务。挖掘上说，随着农业海量信息深入挖掘的

3、不断走强，我们对信息的挖掘程度可以更深，从中提炼出的政策法规、价格行情等信息都可以成为行业参考。第二是尽可能满足用户检索需求，提供全面，精确的查询,目的：从农业应用的需求考虑，探索一个利用Lucene和爬虫的搜索技术建立农业知识垂直搜索引擎，帮助广大用户及时获取农业相关的知识。用户可以精准的检索到农业相关信息。相关技术：在J2ee平台上，运用Java，Jsp技术以及基于Lucene 全文检索技术采用B/S结构实现业务功能系统使用Myeclipse集成开发环境开发， MySql数据库建表。在Tomcat服务器上运行调试。搜索引擎的工作原理基本分为网络爬虫模块，建索引模块，检索模块等3个部分组成

4、步骤； (1)派出网页搜索工具 (Robot)或者叫(Spider网络爬虫), Nutch等在Internet上搜索信息，并且把它们带回搜索引擎。然后解析HTML (2) 把信息进行分类索引，建立网页索引数据库或者索引文件 (3)通过Web服务器端软件，为用户提供浏览器界面下的查询。如图所示：,搜索引擎总体设计,相关技术,图3.1农业信息搜索结构图,网络爬虫设计,根据系统的流程将其分为五个模块：存储模块：负责数据的存储，包括将页面储存到磁盘、获取下一个未分析的页面等。模块：判断Url是否已被抓取。 URL过滤器模块：Url过滤器，用于实现定向抓取。 HTTP模块：负责根据Url抓取页面。

5、页面解析模块：页面的解析，提取包含的Url。,如何解析网页,因为Web中的信息都是建立在HTML协议之上的，所以网络机器人在检索网页时的第一个问题就是如何解析HTML。这部分主要是标题标签和超链接标签。标题标签：运用了正则表达式做了匹配。其中有的网页可能标签大小写不一致，用 patten.CASEINSENSITIVE做了忽略大小写的判断这样简化了好多操作。超连接标签解析：运用了正则表达式做了匹配标签，这部分主要涉及到了util和io两个包。此外还用了第三方开发包Lucene。因为抓取的网页中含有重复的网页，需要消除这些重复的网页，其中运用了MD5算法。如图 4-2 解析网页中关键信息结构图衡量爬虫性能的主要指标：响应时间，查全率和查准率,检索模块的设计,这部分包含：建立索引与检索两部分建立索引：索引文件的建立流程图如下：,谢谢！,

邮箱/手机：
温馨提示：	如需开发票，请勿充值！快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：	注意：如需开发票，请勿充值！
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？