基于python网络爬虫与信息提取的研究与分析(二)

本论文在计算机毕业论文栏目，由论文格式网整理,转载请注明来源www.lwgsw.com,更多论文,请点论文格式范文查看基于python网络爬虫与信息提取的研究与分析

(7)delete：页面提交删除的请求

这些方法对网络爬虫提供非常大的帮助，当发出请求之后，Requests库还会根据编码的头部信息进行推测，再使用response.encoding属性来改变乱码，这样就解决了一些乱码的问题。Requests还有其他的功能，可以通过构造字典之后进行文件的上传，还可以用于证书的验证，检验证书是不是合法等功能。

三、 Scrapy框架的应用

Scrapy是一个基于Python语言爬虫的框架，Scrapy框架和Requests库都是用来爬取网页数据的，相对于Requests库来说，Scrapy框架适用于多个网页的爬取，它适合大规模的数据爬取，但是运行的时间相对比较长，同时在使用时一定要遵循robots.txt文件协议。在这些爬虫库和框架里，对于小规模的数据爬取，介意大家使用Requests库来进行爬取，每个爬虫库或框架都自身的优点和缺点，在生活日常生活中我们需要根据爬取数据类型和数据量来进行选择[5]。

针对大规模下使用Scrapy框架对海量数据个提取与分析，与其他大规模爬取数据的框架进行比较，Scrapy是运行的速度较快，使用起来比较简捷的框架，同时Scrapy还具有超强的扩展性，这使得在没有核心的代码也可以获取比较全面的数据，另外这个框架里增添了很多功能，支持多类字符的识别等，它很好地从页码源的标签来获取数据，同时进行数据源的结构进行分析，通过系统内部的自动调整，最后提取统一的数据结构。这便于不仅便于用户对数据的分析，同时还很存储和管理起来也是非常的方便。

3.1 robots.txt文件的应用

robots.txt文件相当于网络爬虫的基本规则，也是一份爬虫的协议，这是用来限定哪些网站可用爬取，哪些拒绝爬取，系统会自动或人工会识别robots.txt协议，人们再进行合理合法地使用爬虫。它是一种提示或建议，并非强制性，如果网络爬虫不遵守规则，就会存在一定的法律风险。当然，众多的服务器都是为人类提供资源共享的，只是对服务器进行小规模访问，服务器不受到巨大的资源影响，可不遵守robots.txt，但是获取的资源不可以进行商业用途。robots.txt文件有两条语术：User_agent和Disallow,相当于网站是否允许被访问。

这个文件协议给产家和客户提供了一个保护性的门槛，建议客户应该遵循文件协议，同时也对产家的产权起到保护的作用，这样在一定程度上有效地防止对服务器性能进行骚扰，保护了一些重要信息的泄露[6]。

3.2 Beautiful Soup库的应用

BeautifulSoup库的作用是对服务器提供的任何格式进行爬取，相当于对获取的HTML和XML页面进行解析，更具体的说就是用来解析、遍历、维护“标签树”的功能库,这个功能库可以很大程度节省爬虫程序的时间，同时它还可用适当处理一些异常的问题。同时，Beautiful Soup库的安装比较简单，调用的时候我们只需要输入form bs4 import BeautifulSoup库就可用引入这个库，这样就解决了我们不规则代码的码麻烦。

总起来说；在数据多样、规则复杂的社会，人们很难去铭记这些语术表达的规则，所以对很多编程工具的使用存在很大的障碍，正是因为BeautifulSoup库支持很多种解析器，处理很灵活，工作非常高效，人们可以不用编写正则的编码，处理器自动将不正规的转化的正规的页面信息显现给人们，为访问的客户体更所需要爬取的数据，不断节省了编码的时间，同时爬取的数据也是非常的精确。当然，Beautiful Soup库还有其他功能，这需要人们不断对其进行研究和学习[7]。

3.3实例爬取的步骤

首先我们在自己电脑上安装Requests库和 Beautiful Soup库，安装的方法可以到网上来寻找，然后打开python工具引入Requests库，同时我们从网上查找华为荣耀8的网站，再到python编写代码添加要爬取的网站，检测其代码状态是否为200，如果是200则可以进行访问，从实验中显示我们的爬取网页是可以访问的，然后再显示代码内容就可以获取华为荣耀8的具体信息。

3.4实例爬取的结果

经过上面步骤来实现爬取数据，我们看可以看出实验获取的方法比较简单，这是一些比较简单的数据爬取，可以通过一行代码就可以解决问题，这里我们还没有用到BeautifulSoup库，这里的BeautifulSoup库对一些不规则的代码它起到转换显示的作用，可用获取华为荣耀8的具体数据，具体的实验代码如图1所示

四、总结

Python网络爬取数据为用户爬取数据提供很大的便利，海量数据背后的价值是无价的，随着数量的不断增加，数据的结构也会越来越复杂，如何利用好爬虫技术更好、更高效获取和处理数据依然是人们需要面临的挑战，人们需要不断化解这些困难。本文通过对Requests库、robot.txt 文件协议、BeautifulSoup库的分析与应用，了解到了现在的网络爬虫系统已逐渐克服过去的种种障碍，可以把复杂网络上复杂数据代码变为简单的，可以从单个网站爬取转化成多个同时爬取，从长时的运行变为短时的运行，给用户带来了很大的帮助。虽然现在的爬虫技术已经很高效快捷获取数据了，但仍然存在需要改进的地方[9-10]。

本文仅仅做了一个小实验，使用request库来对京东华为荣耀手机网络数据进行爬取，通过实验结果来显示，数据的获取比较快速和精确，但不能够完全体现出网络爬虫存在的问题，现在的网络爬虫技术还仅局限兼容处理器单个，对于系统里复杂的数据集还是做到最大限度的利用，这就需要我们多应用到其他领域，结合更好的爬虫技术，逐渐优化爬虫的系统，使得代码可以更简单即可运行，获取数据更加完整和全面，可以将无用的数据进行自动的删除，系统对隐私的数据也要做到最大的保护。这不仅仅需要培养更多的人才，同时也许要大家自觉遵循网络爬取数据的规则，才能使得在数据的获取和处理上取得进一步的突破。

首页上一页 1 2 下一页尾页 2/2/2


上一篇：计算机软件开发技术及应用	下一篇：论计算机辅助教学与学生创新能力..

Tags：基于 python 网络爬虫信息提取研究分析

【收藏】【返回顶部】