脚本专栏 发布日期:2025/11/3 浏览次数:1
我们一般使用爬虫看到的都是最后的数据结果,对于整个的获取过程没有过多了解过。对于初学python的小伙伴们来说,不光是代码的练习,还是原理的分析都是必不可少的。
小编把整个爬取的过程分为了几个部分,从一开始的下载,到数据的去重解析,再到整个爬虫循环的结束,以图片和代码的双重形式展现给大家,希望能够对爬虫调度器有一个深刻的理解。
我们可以编写几个元件,每个元件完成一项功能,下图中的蓝底白字就是对这一流程的抽象:
爬虫调度器将要完成整个循环,下面写出python下爬虫调度器的程序:
# coding: utf-8
new_urls = set()
data = {}
class SpiderMan(object):
def __init__(self):
#调度器内包含其它四个元件,在初始化调度器的时候也要建立四个元件对象的实例
self.manager = UrlManager()
self.downloader = HtmlDownloader()
self.parser = HtmlParser()
self.output = DataOutput()
def spider(self, origin_url):
#添加初始url
self.manager.add_new_url(origin_url)
#下面进入主循环,暂定爬取页面总数小于100
num = 0
while(self.manager.has_new_url() and self.manager.old_url_size()<100):
try:
num = num + 1
print "正在处理第{}个链接".format(num)
#从新url仓库中获取url
new_url = self.manager.get_new_url()
#调用html下载器下载页面
html = self.downloader.download(new_url)
#调用解析器解析页面,返回新的url和data
try:
new_urls, data = self.parser.parser(new_url, html)
except Exception, e:
print e
for url in new_urls:
self.manager.add_new_url(url)
#将已经爬取过的这个url添加至老url仓库中
self.manager.add_old_url(new_url)
#将返回的数据存储至文件
self.output.store_data(data)
print "store data succefully"
print "第{}个链接已经抓取完成".format(self.manager.old_url_size())
except Exception, e:
print e
#爬取循环结束的时候将存储的数据输出至文件
self.output.output_html()
从整个循环的流程我们可以看出,由爬虫调度器指挥四个元件完成数据的抓取、筛选、保存流程,并以此为基础还可以进行新的循环。看懂原理之后,我们就可以使用以上的代码进行实战啦。