第七章：分布式爬虫

分类：第七章：分布式爬虫

1 篇文章

一介绍原来scrapy的Scheduler维护的是本机的任务队列（存放Request对象及其回调函数等信息）+本机的去重队列（存放访问过的url地址）所以实现分布式爬取的关键就是，找一台专门的主机上运行一个共享的队列比如Redis，然后重写Scrapy的Scheduler，让新的Scheduler到共享队列存取Request，并且去除重复的…

爬虫,第七章：分布式爬虫

269 字

2 分钟

分类： 第七章：分布式爬虫

分类：第七章：分布式爬虫