企业🤖AI Agent构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
# 11.9. 全部放在一起 你已经看到了构造一个智能的 HTTP web 客户端的所有片断。现在让我们看看如何将它们整合到一起。 ## 例 11.17. `openanything` 函数 这个函数定义在 `openanything.py` 中。 ``` def openAnything(source, etag=None, lastmodified=None, agent=USER_AGENT): # non-HTTP code omitted for brevity if urlparse.urlparse(source)[0] == 'http': # open URL with urllib2 request = urllib2.Request(source) request.add_header('User-Agent', agent) if etag: request.add_header('If-None-Match', etag) if lastmodified: request.add_header('If-Modified-Since', lastmodified) request.add_header('Accept-encoding', 'gzip') opener = urllib2.build_opener(SmartRedirectHandler(), DefaultErrorHandler()) return opener.open(request) ``` | | | | --- | --- | | \[1\] | `urlparse` 是一个解析 URL 的便捷的工具模块。它的主要函数也叫 `urlparse`,接受一个 URL 并将其拆分为 tuple (scheme (协议), domain (域名), path (路径), params (参数), query string parameters (请求字符串参数), fragment identifier (片段效验符))。当然,你唯一需要注意的就是 scheme,确认你处理的是一个 HTTP URL (`urllib2` 才能处理)。 | | \[2\] | 通过调用函数使用 `User-Agent` 向 HTTP 服务器确定你的身份。如果没有 `User-Agent` 被指定,你会使用一个默认的,就是定义在早期的 `openanything.py` 模块中的那个。你从来不会使用到默认的定义在 `urllib2` 中的那个。 | | \[3\] | 如果给出了 `ETag`,要在 `If-None-Match` 头信息中发送它。 | | \[4\] | 如果给出了最近修改日期,要在 `If-Modified-Since` 头信息中发送它。 | | \[5\] | 如果可能要告诉服务器你要获取压缩数据。 | | \[6\] | 使用_两个_ 自定义 URL 处理器创建一个 URL 开启器:`SmartRedirectHandler` 终于处理 `301` 和 `302` 重定向,而 `DefaultErrorHandler` 用于处理 `304`, `404` 以及其它的错误条件。 | | \[7\] | 就是这样!打开 URL 并返回一个类文件对象给调用者。 | ## 例 11.18. `fetch` 函数 这个函数定义在 `openanything.py` 中。 ``` def fetch(source, etag=None, last_modified=None, agent=USER_AGENT): '''Fetch data and metadata from a URL, file, stream, or string''' result = {} f = openAnything(source, etag, last_modified, agent) result['data'] = f.read() if hasattr(f, 'headers'): # save ETag, if the server sent one result['etag'] = f.headers.get('ETag') # save Last-Modified header, if the server sent one result['lastmodified'] = f.headers.get('Last-Modified') if f.headers.get('content-encoding', '') == 'gzip': # data came back gzip-compressed, decompress it result['data'] = gzip.GzipFile(fileobj=StringIO(result['data']])).read() if hasattr(f, 'url'): result['url'] = f.url result['status'] = 200 if hasattr(f, 'status'): result['status'] = f.status f.close() return result ``` | | | | --- | --- | | \[1\] | 首先,你用 URL、`ETag` hash、`Last-Modified` 日期和 `User-Agent` 调用 `openAnything` 函数。 | | \[2\] | 读取从服务器返回的真实数据。这可能是被压缩的;如果是,将在后面进行解压缩。 | | \[3\] | 保存从服务器返回的 `ETag` hash,这样主调程序下一次就能把它传递给你,然后再传递给 `openAnything`,放到 `If-None-Match` 头信息里发送给远程服务器。 | | \[4\] | 也要保存 `Last-Modified` 数据。 | | \[5\] | 如果服务器说它发送的是压缩数据,就执行解压缩。 | | \[6\] | 如果你的服务器返回一个 URL 就保存它,并在查明之前假定状态代码为 `200`。 | | \[7\] | 如果其中一个自定义 URL 处理器捕获了一个状态代码,也要保存下来。 | ## 例 11.19. 使用 `openanything.py` ``` >>> import openanything >>> useragent = 'MyHTTPWebServicesApp/1.0' >>> url = 'http://diveintopython.org/redir/example301.xml' >>> params = openanything.fetch(url, agent=useragent) >>> params {'url': 'http://diveintomark.org/xml/atom.xml', 'lastmodified': 'Thu, 15 Apr 2004 19:45:21 GMT', 'etag': '"e842a-3e53-55d97640"', 'status': 301, 'data': '<?xml version="1.0" encoding="iso-8859-1"?> <feed version="0.3" <-- rest of data omitted for brevity -->'} >>> if params['status'] == 301: ... url = params['url'] >>> newparams = openanything.fetch( ... url, params['etag'], params['lastmodified'], useragent) >>> newparams {'url': 'http://diveintomark.org/xml/atom.xml', 'lastmodified': None, 'etag': '"e842a-3e53-55d97640"', 'status': 304, 'data': ''} ``` | | | | --- | --- | | \[1\] | 第一次获取资源时,你没有 `ETag` hash 或 `Last-Modified` 日期,所以你不用使用这些参数。 (它们是[可选参数](../power_of_introspection/optional_arguments.html "4.2. 使用可选参数和命名参数")。) | | \[2\] | 你获得了一个 dictionary,它包括几个有用的头信息、HTTP 状态代码和从服务器返回的真实数据。`openanything` 在内部处理 gzip 压缩;在本级别上你不必关心它。 | | \[3\] | 如果你得到一个 `301` 状态代码,表示是个永久重定向,你需要把你的 URL 更新为新地址。 | | \[4\] | 第二次获取相同的资源时,你已经从以往获得了各种信息:URL (可能被更新了)、从上一次访问获得的 `ETag`、从上一次访问获得的 `Last-Modified` 日期,当然还有 `User-Agent`。 | | \[5\] | 你重新获取了这个 dictionary,但是数据没有改变,所以你得到了一个 `304` 状态代码而没有数据。 |