论文格式
电气工程 会计论文 金融论文 国际贸易 财务管理 人力资源 轻化工程 德语论文 工程管理 文化产业管理 信息计算科学 电气自动化 历史论文
机械设计 电子通信 英语论文 物流论文 电子商务 法律论文 工商管理 旅游管理 市场营销 电视制片管理 材料科学工程 汉语言文学 免费获取
制药工程 生物工程 包装工程 模具设计 测控专业 工业工程 教育管理 行政管理 应用物理 电子信息工程 服装设计工程 教育技术学 论文降重
通信工程 电子机电 印刷工程 土木工程 交通工程 食品科学 艺术设计 新闻专业 信息管理 给水排水工程 化学工程工艺 推广赚积分 付款方式
  • 首页 |
  • 毕业论文 |
  • 论文格式 |
  • 个人简历 |
  • 工作总结 |
  • 入党申请书 |
  • 求职信 |
  • 入团申请书 |
  • 工作计划 |
  • 免费论文 |
  • 合作期刊 |
  • 论文同学网 |
搜索 高级搜索

当前位置:论文格式网 -> 毕业论文 -> 计算机论文
毕业论文标题:

基于Nutch的搜索引擎实现及中文扩展

 本文ID:LWGSW13493 价格:收费积分/100
扫一扫 扫一扫
本站会员可自行下载:下载地址 基于Nutch的搜索引擎实现及中文扩展 (收费:1000 积分)  

论文字数:19341,页数:41 有开题报告,任务书

摘    要
     
 搜索引擎是为满足人们网络信息搜索应运而生的网络工具,它是互联网信息查询的导航针,是沟通用户与网络信息的桥梁。然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种搜索需求,尽管Web搜索是漫游Internet的基本要求, 并且现有web搜索引擎的数目却在下降。 这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益。于是强有力的搜索工具成为这些网民们的渴盼。作为Apache开源子项目,Nutch 提供完整的搜索引擎框架,在对全文进行索引的时候,索引部分采用了开源工具包Lucene进行全文索引。通过对Nutch的二次开发,我们可以利用它强大的网络资源采集功能对网络资源进行采集,并加工进入本地库,最后让用户直接面对有效的信息。
 本文重点讨论搜索引擎原理,基于Nutch的搜索引擎的实现架构,同时网页抓取过程做了深入的研究和分析;最后,对在早期Nutch的版本的基础上如何更好的支持中文,实现中文分词搜索给出问题的解决方案,并对基于Nutch的搜索引擎的应用进行了讨论。
 
 关键词:搜索引擎,抓取器,Nutch,中文分词
 
Nutch –Based Search Engine Implementation and Chinese extension
           

 Abstract
 Search engine is the internet tool meeting demands of people while surfing on the internet and searching the information. It is a Internet Information navigation and bridge between internet user and information. However, with the sharply increase of the net content and the surprisingly change of the Synchronized forms of content, search engine can not satisfy increasingly critical user’s all kinds of search demands, although Web search is the foundation of the internet Roaming ,the existing number of search engine is down.This phenomenon can easily became one company almost monopolized all web search for its commercial gain.  Therefore ,a strong and useful and effective search tool rise to the hope focus of internet user.Nutch is such search engine, when Nutch aims to text indexing, it uses the revenue Lucene toolkit for full-text indexing. Through the second Nutch development we can make use of its powerful internet resource Collection Function to collect the resource we need, then put the processed information into local database, finally, user can directly face effective information.
 In this paper, we emphasize on the implementation architecture of the Nutch, Search engine principle,webpage crawling process. Excepting the in-depth research and analysis about above, we also give the solution of how to support Chinese and Chinese segmentation on the basis of earlier versions. Finally, a discussion about the application based on Nutch is given.
 
Key words:Search engine, crawler, Nutch, Chinese segmentation


 目录
1绪论 1
1.1 课题背景   1
1.2 搜索引擎的现状 2
1.2.1搜索引擎的发展历史 2
1.2.2搜索引擎的分类 3
1.2.3当前主流搜索引擎简介 4
1.3 论文组织结构 5
2搜索引擎基本组成及数据结构 6
2.1搜索引擎基本组成及工作流程 6
2.1.1基本组成 6
2.1.2工作流程 6
2.2 存储结构 8
2.2.1页面存储库 8
2.2.2词典库 8
2.2.3 Hits列表 9
2.3 索引结构 10
2.3.1文档索引库 10
2.3.2前向索引表 10
2.3.3后向索引表 11
3基于Nutch的搜索引擎实现的关键技术 11
3.1网页抓取技术研究与设计 11
3.1.1抓取技术的协议分析 11
3.1.2通信协议 12
3.1.3 HTML解析 13
3.2 网页抓取方法 13
4 基于Nutch实现架构 16
4.1 基于Nutch的搜索引擎开发环境和体系结构 16
4.1.1 基于Nutch的搜索引擎的开发环境 16
4.1.2基于 Nutch的搜索引擎的体系结构 16
4.2 基于Nutch的搜索引擎的抓取过程运行 20
4.3 搜索结果展示 22
5 Nutch中文扩展设计与实现 23
5.1中文分词和搜索引擎 23
5.2 中文分词算法 23
5.2.1 基于字符串匹配的分词算法 24
5.2.2基于理解的分词方法 25
5.2.3基于统计的分词方法 25
5.3 中文分词难点 26
5.4 Nutch分析 27
5.5 Nutch中文搜索 28
5.5.1 Nutch中文分词 28
5.5.2 JavaCC分析 29
5.5.3利用JavaCC构造中文分析模块 31
5.6小结 33
结论 33
总结 33
展望 33
致谢 34
参考文献 34


相关论文
本论文在计算机论文栏目,由论文格式网整理,转载请注明来源www.lwgsw.com,更多论文,请点论文格式范文查看
上一篇:工作流在ERP中的实践调拨业务的实.. 下一篇:ERP沙盘模拟教学系统的开发
Tags:Nutch 搜索引擎 中文扩展 【收藏】 【返回顶部】
最新文章
热门文章
计算机论文
推荐文章

本站部分文章来自网络,如发现侵犯了您的权益,请联系指出,本站及时确认删除 E-mail:349991040@qq.com

论文格式网(www.lwgsw.com--论文格式网拼音首字母组合)提供计算机论文毕业论文格式,论文格式范文,毕业论文范文

Copyright@ 2010-2018 LWGSW.com 论文格式网 版权所有 蜀ICP备09018832号