2.5 代理的基本原理 · python3爬虫笔记

# 2.5 代理的基本原理在做爬虫的过程中经常会遇到这样的情况，最初爬虫正常运行，正常抓取数据，一切看起来都是那么的美好，然而一杯茶的功夫可能就会出现错误，比如 403 Forbidden，这时候打开网页一看，可能会看到“IP 访问频率太高”这样的提示。出现这样的现象的原因是网站采取了一些反爬虫的措施，比如服务器会检测某个 IP 在单位时间内的请求次数，如果超过了这个阈值，那么会直接拒绝服务，返回一些错误信息，这种情况可以称之为封 IP，于是乎就成功把我爬虫禁掉了。既然服务器检测的是某个 IP 单位时间的请求次数，那么借助某种方式来伪装我们的 IP，让服务器识别不出是由本机发起的请求，不就可以成功防止封 IP 了吗？那么在这里一种有效的方式就是使用代理，使用它可以成功伪装 IP，避免本机 IP 被封禁的情况。来源:[https://germey.gitbooks.io/python3webspider/content/2.5-代理基本原理.html](https://germey.gitbooks.io/python3webspider/content/2.5-代理基本原理.html)