论文格式
电气工程 会计论文 金融论文 国际贸易 财务管理 人力资源 轻化工程 德语论文 工程管理 文化产业管理 信息计算科学 电气自动化 历史论文
机械设计 电子通信 英语论文 物流论文 电子商务 法律论文 工商管理 旅游管理 市场营销 电视制片管理 材料科学工程 汉语言文学 免费获取
制药工程 生物工程 包装工程 模具设计 测控专业 工业工程 教育管理 行政管理 应用物理 电子信息工程 服装设计工程 教育技术学 论文降重
通信工程 电子机电 印刷工程 土木工程 交通工程 食品科学 艺术设计 新闻专业 信息管理 给水排水工程 化学工程工艺 推广赚积分 付款方式
  • 首页 |
  • 毕业论文 |
  • 论文格式 |
  • 个人简历 |
  • 工作总结 |
  • 入党申请书 |
  • 求职信 |
  • 入团申请书 |
  • 工作计划 |
  • 免费论文 |
  • 合作期刊 |
  • 论文同学网 |
搜索 高级搜索

当前位置:论文格式网 -> 毕业论文 -> 计算机论文
毕业论文标题:

用Java来开发一个Web数据抽取工具

 本文ID:LWGSW17673 价格:收费积分/100
扫一扫 扫一扫
本站会员可自行下载:下载地址 用Java来开发一个Web数据抽取工具 (收费:1000 积分)  

论文字数:9776,页数:33

摘要

 本课题是介绍如何用Java来开发一个Web数据抽取工具。主要内容就是实现Spider(发现、搜集网页信息需要有高性能的“网络蜘蛛”程序去自动地在互联网中搜索信息),解析HTML(Web中的信息都是建立在HTML协议之上的,所以网络机器人在检索网页时的第一个问题就是如何解析HTML),提高程序性能(利用Java的多线程技术在Internet中拥有海量的Web页面中开发出高效的Spider程序)。Eclipse开发工具采用Spider核心技术遍历URL下载整个Web站点。我通过设计和调用各种Java类实现了上述技术的要求。本设计程序本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。它还有灵活的下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。经过程序运行测试,效果良好。
关键词: 数据抽取,Java类,Web Spider,Java多线程

Abstract

 This topic is an introduction how to develop a Web data sample tool based on the Java.The main contents is to carry out Spider(find, collect web page's information need to have "Web spider" of high performance to search the information of itself in the Internet), analyze HTML(the informations in the Web all build up in the HTML, so the first problem for web robot is how to analyze HTML when crawling web page) and raise program function.(make use of the Java multi-threading technique to develop efficiently of Spider program in the Internet which have a number of Web pages) To adopt the core technique of Spider in the Eclipse to crawl the URL ,then download the whole Web site.I carry out the above-mentioned technical request with design and use various of Java class.The essence of this program is a Web Spider.The main advantage downloaded tool with other to compare it is it can automatically to fill form(such as:Automatically register)with usage cookies to handle session.It still has vivid download rule(such as:Pass the URL, size of web page, MIME type etc.)to limit a download.y the effect is good by a test.
Keyword: the data sample,Java class,Web Spider,the Java multi-threading

目录

摘要 I
Abstract II
第一章 绪论 1
1.1 背景 1
1.2 设计目的及实现方法 1
1.3 国内外的现状 1
第二章 相关技术综述和技术背景 3
2.1 开发工具Eclipse 3
2.1.1 Eclipse简介 3
2.1.2 Eclipse工作台 3
2.1.3 在Eclipse中开发Java程序 4
2.1.4 在Eclipse中调试Java程序 4
2.2 核心技术——Spider 4
2.2.1 工作原理 4
2.2.2 搜索策略 4
2.2.3 搜索策略的趋势 5
2.3 Spider设计 6
2.3.1 Spider采集 6
2.3.2 Socket连接的实现 7
2.3.3 Spider程序结构 7
2.3.4 Spider构架 9
2.4 Spider中采用提高程序性能的技术 9
第三章 总体设计 11
3.1 设计原则 11
3.2 功能目标设计 11
3.3 设计描述 11
3.4 设计的实现 12
3.4.1 Java类的建立 12
3.4.2 Java类的调用和修改 14
3.5 说明 19
3.5.1 主窗口 19
3.5.2 功能窗口 20
第四章 运行与测试 24
第五章 总结 28
致谢 28
参考文献 29


相关论文
本论文在计算机论文栏目,由论文格式网整理,转载请注明来源www.lwgsw.com,更多论文,请点论文格式范文查看
上一篇:电子商务的动态商务网站——网络.. 下一篇:JSP网上书店系统
Tags:Java 开发 一个 Web 数据 抽取 工具 【收藏】 【返回顶部】
最新文章
热门文章
计算机论文
推荐文章

本站部分文章来自网络,如发现侵犯了您的权益,请联系指出,本站及时确认删除 E-mail:349991040@qq.com

论文格式网(www.lwgsw.com--论文格式网拼音首字母组合)提供计算机论文毕业论文格式,论文格式范文,毕业论文范文

Copyright@ 2010-2018 LWGSW.com 论文格式网 版权所有 蜀ICP备09018832号