crawlstyle · TUNA-daily

转：http://blog.csdn.net/Q_AN1314/article/details/51111502 Scrapy可以设置优先抓取哪些网页，设置DEPTH_LIMIT可以控制抓取的最大深度，如果设为0则意味着没有限制。把DEPTH_PRIORITY（默认值为0）设置为一个正值后，Scrapy的调度器的队列就会从LIFO变成FIFO，因此抓取规则就由DFO（深度优先）变成了BFO（广度优先）： ~~~ DEPTH_PRIORITY = 1 SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue' SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue' ~~~ 这在爬网站的时候是很有用的，例如，一个新闻的门户网站，主页上有很多最近的新闻，其中每个新闻页面都有到其他页面的外链。默认情况下，Scrapy会在主页的第一个新闻中尽可能地深入，然后才会继续其他的新闻。而BFO顺序会先抓取顶层（即主页上的）的链接，然后才会进一步深入。此时若与DEPTH_LIMIT联合使用，比如将其设置为3，就可以快速地在门户网站上获取最近的新闻了。有些网站会在根目录下放置一个名字为robots.txt的文件，里面声明了此网站希望爬虫遵守的规范。如果把ROBOTSTXT_OBEY设置成了 True，Scrapy就会遵守这个文件制定的规范。不过此时要在调试的时候注意还要忘了这一点，以防爬虫会出现一些出乎意料的行为。 CookiesMiddleware中间件会对程序员透明地处理所有与cookie相关的操作，比如session追踪，以便可以让爬虫登录等等。如果你想让爬网站的过程更加隐秘，可以把COOKIES_ENABLED选项设置成False。禁用cookie也会稍稍减少传输的带宽并加速抓取的过程。同样地，REFERER_ENABLED默认也是True，也就是启用了RefererMiddleware中间件，它负责填充Referer请求头。你可以使用DEFAULT_REQUEST_HEADERS选项来自定义请求头。有些网站会要求有特定的请求头才行，此时这个设置项就显得很有用。最后，工程中自动生成的settings.py文件建议设置USER_AGENT，默认是Scrapy的版本，不过最好改成网站管理员能联系到我们的一些信息。