论文格式
电气工程 会计论文 金融论文 国际贸易 财务管理 人力资源 轻化工程 德语论文 工程管理 文化产业管理 信息计算科学 电气自动化 历史论文
机械设计 电子通信 英语论文 物流论文 电子商务 法律论文 工商管理 旅游管理 市场营销 电视制片管理 材料科学工程 汉语言文学 免费获取
制药工程 生物工程 包装工程 模具设计 测控专业 工业工程 教育管理 行政管理 应用物理 电子信息工程 服装设计工程 教育技术学 论文降重
通信工程 电子机电 印刷工程 土木工程 交通工程 食品科学 艺术设计 新闻专业 信息管理 给水排水工程 化学工程工艺 推广赚积分 付款方式
  • 首页 |
  • 毕业论文 |
  • 论文格式 |
  • 个人简历 |
  • 工作总结 |
  • 入党申请书 |
  • 求职信 |
  • 入团申请书 |
  • 工作计划 |
  • 免费论文 |
  • 合作期刊 |
  • 论文同学网 |
搜索 高级搜索

当前位置:论文格式网 -> 毕业论文 -> 计算机论文
毕业论文标题:

基于java网络蜘蛛程序

 本文ID:LWGSW13524 价格:收费积分/100
扫一扫 扫一扫
本站会员可自行下载:下载地址 基于java网络蜘蛛程序 (收费:1000 积分)  

论文字数:12995,页数:42 有开题报告,任务书,PPT

 摘  要
 在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。网络蜘蛛程序是Web搜索引擎技术中关键的一部分。
 本论文基于现有的知识理论实现了蜘蛛程序,从给定网址开始进行爬行搜索,利用数据库队列技术管理网页链接,将访问过的网页资源下载到本地硬盘保存。通过使用Lucene工具包对下载资源。利用java.url中的类实现Spider程序与外界通讯,以及处理网页中的URL连接,对蜘蛛程序的核心类(通讯核心、蜘蛛程序工作核心),资源索引的建立与搜索新型了详细的研究。
 通过设计分析,完成了自己的蜘蛛爬行程序。程序按照初始设计功能完成,实现了对网络资源的收集和整理。功能通过了测试,程序可以正常稳定运行
 最后论文对全文进行了总结,并对为了发展的方向进行了展望。
 
关键字:HTTP,线程,Spider,Lucene


Abstract
 At the initial stage of internet development, there were few websites, so information searching is comparatively easy. However, with the explosion of internet, searching for information became very hard to common website users which calls for the appearance of professional searching websites. A crucial part of web searching engine technology is web spider program.
 This paper realized the following procedures from give the website address to operate searching, make use of data base lining technology to manage webpage linkage to download visited sources to the local hard drives. Lucene tool bag is used to give content to the download sources. This paper is focused on the following technology: the core of spider program (communication core, spider program working core), the establishment of sources and search.
 Though the design analysis, I have finished my own spider creeping program. The program is finished based on initial design, implement the collection and arranging of net sources. These functions passed the test, and is able to run normally.
 
Key words: HTTP, routine, spider, Lucene
 
 
 
 目   录
1  绪 论 1
1.1课题研究背景 1
1.2国内外研究现状 1
1.3 本论文的结构 4
2 程序设计目标及策略 5
2.1程序分析 5
2.1.1 多线程搜索 5
2.1.2 数据库队列管理 5
2.1.3 检索引擎——Lucene 6
2.2功能点技术分析 6
2.2.1 Spider如何获取URL链接的获取 6
2.2.2 程序结构的选择 6
2.2.3利用递归构造Spider 6
2.2.4利用非递归构造Spider 7
2.2.5 Spider程序的队列 7
2.2.6全文索引 8
3 程序设计与实现、测试 9
3.1 HTTP类及相关类的设计与实现 9
3.2 蜘蛛程序工作核心类设计与实现 13
3.2.1 蜘蛛程序中线程的设计 13
3.2.2 多线程同步 14
3.3 Spider类及其相关类的实现 15
3.3.1 ISpiderReportable接口 15
3.3.2 IWorkloadStorable接口 15
3.3.3 SpiderSQLWorkload类 16
3.3.4 SpiderWorker类 16
3.3.5 SpiderDone类 18
3.3.6 Spider类 19
3.4程序测试 20
3.4.1硬件环境 20
3.4.2软件环境 20
3.4.3测试用例 20
3.4.4测试结论 21
4 总结 22
致 谢 25
参考文献 26
附录:代码 27


相关论文
本论文在计算机论文栏目,由论文格式网整理,转载请注明来源www.lwgsw.com,更多论文,请点论文格式范文查看
上一篇:教师工作量计算系统设计与实现 下一篇:MDA在企业ERP中的应用可销商品控制
Tags:基于 java 网络 蜘蛛 程序 【收藏】 【返回顶部】
最新文章
热门文章
计算机论文
推荐文章

本站部分文章来自网络,如发现侵犯了您的权益,请联系指出,本站及时确认删除 E-mail:349991040@qq.com

论文格式网(www.lwgsw.com--论文格式网拼音首字母组合)提供计算机论文毕业论文格式,论文格式范文,毕业论文范文

Copyright@ 2010-2018 LWGSW.com 论文格式网 版权所有 蜀ICP备09018832号