企业🤖AI Agent构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
# Python3 相关知识 ## 简单爬虫 ### urlib 使用urlib这个组件抓取网页,urllib是一个URL处理包,这个包中集合了一些处理URL的模块。 |模块名 |作用 | |-------------------|-----------------------------| |urllib.request |模块是用来打开和读取URLs的 | |urllib.error |模块包含一些有urllib.request产生的错误,可以使用try进行捕捉处理| |urllib.parse |模块包含了一些解析URLs的方法 | |urllib.robotparser |模块用来解析robots.txt文本文件.它提供了一个单独的RobotFileParser类,通过该类提供的can_fetch()方法测试爬虫是否可以下载一个页面 | ### 爬取一个网页的步骤 1. 使用 `urllib.request.urlopen()` 打开一个网页。 > urlopen有一些可选参数,具体信息可以查阅Python自带的documentation。 2. 读取网页内容。 ```python # -*- coding: UTF-8 -*- from urllib import request if __name__ == "__main__": response = request.urlopen("http://fanyi.baidu.com") html = response.read() html = html.decode('utf-8') print(html) ``` 3.