为了承载和封装数据,需要先声明一些基本的[数据结构](http://c.biancheng.net/data_structure/)。网络爬虫框架中的各个模块都会用到这些数据结构,所以可以说它们是这一程序的基础。
在分析网络爬虫框架的需求时,提到过这样几类数据——请求、响应、条目,下面我们逐个讲解它们的声明和设计理念。
请求用来承载向某一个网络地址发起的 HTTP 请求,它由调度器或分析器生成并传递给下载器,下载器会根据它从远程服务器下载相应的内容。因此,它有一个 net/http.Request 类型的字段。
不过,为了减少不必要的零值生成(http.Request 是一个结构体类型,它的零值不是 nil)和实例复制,我们把 \*http.Request 作为该字段的类型。下面是 base.Request 类型的声明的第一个版本:
~~~
//数据请求的类型type Request struct { // HTTP请求 httpReq *http.Request}
~~~
我把基本数据结构的声明都放到了示例项目下的代码包 gopcp.v2/chapter6/webcra-wler/module 中。因此,其他代码包中的代码在访问这些类型时一般会用到限定符 module。示例项目大家可以从我的网盘中下载(链接:[https://pan.baidu.com/s/1yzWHnK1t2jLDIcTPFMLPCA](https://pan.baidu.com/s/1yzWHnK1t2jLDIcTPFMLPCA) 提取码:slm5)。
从已经提到的相关需求来看,这样的声明已经足够了。不过,我也说过网络爬虫能够在爬取过程结束之后自动停止。那么,网络爬虫在对一个网站上的内容爬取到什么程度才结束呢?量化内容爬取程度的一个比较常用的方法,是计算每个下载的网络内容的深度。
网络爬虫可以根据最大深度的预设值忽略掉对“更深”的网络内容的下载。当所有在该最大深度范围内的网络内容都下载完成时,就意味着爬取过程即将结束。待这些内容分析和处理完成后,就能够判定网络爬虫对爬取过程的执行是否真正结束了。因此, 为了记录网络内容的深度,我们还应该在 Request 类型的声明中加入一个字段,它的第二个版本如下:
~~~
//数据请求的类型type Request struct { // HTTP请求 httpReq *http.Request //请求的深度 depth uint32}//用于创建一个新的请求实例func NewRequest(httpReq *http.Request, depth uint32) *Request { return &Request{httpReq: httpReq, depth: depth}}//用于获取 HTTP 请求func (req *Request) HTTPReq() *http.Request { return req.httpReq}//用于获取请求的深度func (req *Request) Depth() uint32 { return req.depth}
~~~
我希望这个类型的值是不可变的。也就是说,在该类型的一个值创建和初始化之后, 当前代码包之外的任何代码都不能更改它的任何字段值。对于这样的需求,一般会通过以下 3 个步骤来实现。
1) 把该类型的所有字段的访问权限都设置为包级私有。也就是说,要保证这些字段 的名称首字母均为小写。
2) 编写一个创建和初始化该类型值的函数。由于该类型的所有字段均不能被当前代码包之外的代码直接访问,所以它们自然也就无法为这样的字段赋值。这也是需要编写这样一个函数的原因。这类函数的名称一般都以“New”为前缀,它们会接受一些参数值,然后以此为基础初始化一个目标类型的值并将其作为函数结果返回。
3) 编写必要的用来获取字段值的方法。这一步骤并不是必需的。不编写这样的方法的原因可能是想要完全隐藏字段值,也可能是字段的类型导致不宜公开其值。比如,如果字段是引用类型的,那么只要它的值可以被外部获取,就等于让外部有了修改权限。
注意,NewRequest 函数的结果类型是 \*Request,而不是 Requesto 这样做的主要原因是要为 Request 类型编写指针方法而非值方法,并以此让 \*Request 成为某个接口类型的实现类型。更深层次的原因是,值在作为参数传递给函数或者作为结果由函数返回时会被复制一次。指针值往往更能减小复制的开销。
这里再说明一下 Request 类型的 depth字段。理论上,uint32 类型已经可以使 depth 字段的值足够大了。由于深度值不可能是负数,所以也不需要为此牺牲正整数的部分取值范围。传递给调度器的首次请求的深度值是 0,这也是首次请求的一个标识。
那么,后续请求的深度值应该怎样计算和传递呢?假设下载器发出了首次请求“A”并成功接收到了响应,经过分析器的分析,其中找到了两个新的网络地址并生成了新的请求“B”和“C”,那么这两个新请求的深度值就为 1。
如果在接收并分析了请求“B”的响应之后又生成了一个新请求“D”,那么后者的深度值就是 2,以此类推。我们可以把首次请求看作请求“B”和请求“C”的父请求,反过来讲,可以把请求“B”和请求“C”视作首次请求的子请求。
因此,就有了这样一条规则:一个请求的深度值等于对它的父请求的深度值递增一次后的结果。
理解了刚刚对请求深度值计算方法的描述之后,你可能会发现:只有对某个请求的响应内容进行分析之后,才可能需要生成新的请求。并且,调度器并不会直接把请求作为参数传递给分析器。这样不符合我们先前对数据流转方式的设计,同时也会使这两个处理模块之间的交互变得混乱。
显然,响应也携带深度值。一方面,这可以算作标示响应深度的一种方式。另一方面,也是更重要的一方面,它可以作为新请求的深度值的计算依据。因此,Response 类型的声明如下:
~~~
//数据响应的类型type Response struct { // HTTP响应 httpResp *http.Response //响应的深度 depth uint32}//用于创建一个新的响应实例func NewResponse(httpResp *http.Response, depth uint32) *Response { return &Response{httpResp: httpResp, depth: depth}}//用于获取HTTP响应func (resp *Response) HTTPResp() *http.Response { return resp.httpResp}//用于获取响应深度func (resp *Response) Depth() uint32 { return resp.depth}
~~~
这个类型的声明不再做解释,其各部分的含义与 Request 类型类似。
除了请求和响应这两个有着对应关系的数据结构之外,还需要定义条目的结构。条目的实例需要存储的内容比请求和响应复杂得多。因为对响应的内容进行筛选并生成出条目的规则也是由网络爬虫框架的使用者自己制定的。
因此,条目的结构足够灵活,其实例可以容纳所有可能从响应内容中筛选出的数据。基于此,我这样定义条目的类型声明:
//条目的类型
type Item map\[string\]interface{}
我们把 Item 类型声明为字典类型 map\[string\]interface{} 的别名类型,这样就可以最大限度地存储多样的数据了。由于条目处理器也是由网络爬虫框架的使用者提供,所以这里并不用考虑字典中的各个元素值是否可以被条目处理器正确理解的问题。
好了,我们需要的 3 个基本数据类型都在这里了。为了能够用一个类型从整体上标识这 3 个基本数据类型,我们又声明了 Data 接口类型:
//数据的接口类型
type Data interface {
//用于判断数据是否有效
Valid() bool
}
这个接口类型只有一个名为 Valid 的方法,可以通过调用该方法来判断数据的有效性。显然,Data接口类型的作用更多的是作为数据类型的一个标签,而不是定义某种类型的行为。为了让表示请求、响应或条目的类型都实现 Data 接口,又在当前的源码文件中添加了这样几个方法:
~~~
//用于判断请求是否有效func (req *Request) Valid() bool { return req.httpReq != nil && req.httpReq.URL != nil}//用于判断响应是否有效func (resp *Response) Valid() bool { return resp.httpResp != nil && resp.httpResp.Body != nil}//用于判断条目是否有效func (item Item) Valid() bool { return item != nil}
~~~
这样一来,这 3 个类型因 Data 接口类型而被归为一类。在后面,你会了解到这样做还有另外的功效。
至此,实现网络爬虫框架需要用到的基本数据类型均已编写完成。不过,这里我们还需要一个额外的类型,这个类型是作为 error 接口类型的实现类型而存在的。它的主要作用是封装爬取过程中出现的错误,并以统一的方式生成字符串形式的描述。
我们知道, 只要某个类型的方法集合中包含了下面这个方法,就等于实现了 error 接口类型:
func Error() string
为此,首先声明了一个名为 CrawlerError 的接口类型:
//爬虫错误的接口类型
type CrawlerError interface {
//用于获得错误的类型
Type() ErrorType
//用于获得错误提示信息
Error() string
}
我们把它放在了 gopcp.v2/chapter6/webcrawler/errors 代码包中,其中 Type 方法的结果类型 ErrorType 只是一个 string 类型的别名类型而已。另外,由于 CrawlerError 类型的声明中也包含了 Error 方法,所以只要某个类型实现了它,就等于实现了 error 接口类型。
先编写这样一个接口类型而不是直接编写出 error 接口类型的实现类型的原因有两个。第一,我们在编程过程中应该遵循面向接口编程的原则,这个原则我已经提过多次了。第二是为了扩展 error 接口类型。网络爬虫框架拥有多个处理模块,错误类型值可以表明该错误是哪一个处理模块产生的,这也是 Type 方法起到的作用。
下面就让我们来实现这个接口类型。遵照本书中对实现类型的命名风格,我们声明了结构体类型 myCrawlerError:
//爬虫错误的实现类型
type myCrawlerError struct {
//错误的类型
errType ErrorType
//错误的提示信息
errMsg string
//完整的错误提示信息
fullErrMsg string
}
字段 errMsg 的值由初始化 myCrawlerError 类型值的一方给出,这与传递给 errors.New 函数的参数值的含义类似。作为附加信息,errType 字段的值就是该类型的 Type 方法的结果值,它代表了错误类型。为了便于使用者为该字段赋值,还声明了一些常量:
//错误类型常量
const (
//下载器错误
ERROR\_TYPE\_DOWNLOADER ErrorType = "downloader error"
//分祈器错误
ERROR\_TYPE\_ANALYZER ErrorType = "analyzer error"
//条目处理管道错误
ERROR\_TYPE\_PIPELINE ErrorType = "pipeline error"
//调调度器错误
ERROR\_TYPE\_SCHEDULER ErrorType = "scheduler error"
)
可以看到,这 4 个常量的类型都是 ErrorType,它们分别与网络爬虫框架中的主要模块相对应。当某个模块在运行过程中出现了错误,程序就会使用对应的 ErrorType 类型的常量来初始化一个 CrawlerError 类型的错误值。具体的初始化方法就是使用 NewCrawler-Error 函数,其声明如下:
//用于创建一个新的爬虫错误值
func NewCrawlerError(errType ErrorType, errMsg string) CrawlerError {
return &myCrawlerErro:r{
errType: errType,
errMsg: strings.TrimSpace(errMsg),
}
}
从该函数的函数体可以看出,\*myCrawlerError 类型是 CrawlerError 类型的一个实现类型。\*myCrawlerError 型的方法集合中包含 CrawlerError 口类型中的 Type 方法和 Error 方法:
~~~
func (ce *myCrawlerError) Type() ErrorType { return ce.errType}func (ce *myCrawlerError) Error() string { if ce.fullErrMsg == "" { ce.genFullErrMsg() } return ce.fullErrMsg}
~~~
你可能已经发现,Error 方法中用到了 myCrawlerError 型的 fullErrMsg 字段。并且,它还调用了一个名为 genFullErrMsg 的方法,该方法的实现如下:
~~~
//用于生成错误提示信息,并给相应的字段赋值func (ce *myCrawlerError) genFullErrMsg() { var buffer bytes.Buffer buffer.Writestring("crawler error:") if ce.errType != "" { buffer.WriteString(string(ce.errType)) buffer.WriteString(":") } buffer.WriteString(ce. errMsg) ce.fullErrMsg = fmt.Sprintf("%s", buffer.String()) return}
~~~
genFullErrMsg 方法同样是 myCrawlerError 类型的指针方法,它的功能是生成 Error 方法需要返回的结果值。可以看到,这里没有直接用 errMsg 字段的值,而是以它为基础生成了一条更完整的错误提示信息。在这条信息中,明确显示岀它是一个网络爬虫的错误,也给出了错误的类型和详情。
注意,这条错误提示信息缓存在 fullErrMsg 字段中。回顾该类型的 Error 方法的实现,只有当 fullErrMsg 字段的值为 "" 时,才会调用 genFullErrMsg 方法,否则会直接把 fullErrMsg 字段的值作为 Error 方法的结果值返回。
这也是为了避免频繁地拼接字符串给程序性能带来的负面影响。在 genFullErrMsg 方法的实现中使用了 bytes.Buffer 类型值作为拼接错误信息的手段。
虽然这样做确实可以大大减小这一负面影响,但是由于 myCrawlerError 类型的值是不可变的,所以缓存错误提示信息还是很有必要的。其根本原因是,对这样的不可变值的缓存永远不会失效。
前面展示的这些类型对于承载数据(不论是正常数据还是错误信息)来说已经足够了,它们是网络爬虫框架中最基本的元素。
- 1.Go语言环境搭建
- 1.1 安装与环境
- 1.2 国内镜像配置
- 1.3 IDE的选择
- 2.Go语言基础语法
- 2.1 Go语言变量的声明
- 2.2 Go语言变量的初始化
- 2.3 Go语言多个变量同时赋值
- 2.4 Go语言匿名变量
- 2.5 Go语言变量的作用域
- 2.6 Go语言整型
- 2.7 Go语言浮点类型
- 2.8 Go语言复数
- 2.9 Go语言输出正弦函数(Sin)图像
- 2.10 Go语言bool类型
- 2.11 Go语言字符串
- 2.12 Go语言字符类型
- 2.13 Go语言数据类型转换
- 2.14 Go语言指针详解
- 2.15 Go语言变量逃逸分析
- 2.16 Go语言变量的生命周期
- 2.17 Go语言常量和const关键字
- 2.18 Go语言模拟枚举
- 2.19 Go语言type关键字
- 2.20 Go语言注释的定义及使用
- 2.21 Go语言关键字与标识符简述
- 2.22 Go语言运算符的优先级
- 2.23 Go语言strconv包
- 3.Go语言容器
- 3.1 Go语言数组详解
- 3.2 Go语言多维数组简述
- 3.3 Go语言切片详解
- 3.4 Go语言append()为切片添加元素
- 3.5 Go语言切片复制
- 3.6 Go语言从切片中删除元素
- 3.7 Go语言range关键字
- 3.8 Go语言多维切片简述
- 3.9 Go语言map
- 3.10 Go语言遍历map
- 3.11 Go语言map元素的删除和清空
- 3.12 Go语言sync.Map
- 3.13 Go语言list
- 3.14 Go语言nil
- 3.15 Go语言make和new关键字的区别及实现原理
- 4.Go语言流程控制
- 4.1 Go语言分支结构
- 4.2 Go语言循环结构
- 4.3 Go语言输出九九乘法表
- 4.4 Go语言键值循环
- 4.5 Go语言switch语句
- 4.6 Go语言goto语句
- 4.7 Go语言break
- 4.8 Go语言continue
- 4.9 Go语言聊天机器人
- 4.10 Go语言词频统计
- 4.11 Go语言缩进排序
- 4.12 Go语言实现二分查找算法
- 4.13 Go语言冒泡排序
- 5.Go语言函数
- 5.1 Go语言函数声明
- 5.2 Go语言将秒转换为具体的时间
- 5.3 Go语言函数中的参数传递效果测试
- 5.4 Go语言函数变量
- 5.5 Go语言字符串的链式处理
- 5.6 Go语言匿名函数
- 5.7 Go语言函数类型实现接口
- 5.8 Go语言闭包(Closure)
- 5.9 Go语言可变参数(变参函数)
- 5.10 Go语言defer(延迟执行语句)
- 5.11 Go语言递归函数
- 5.12 Go语言处理运行时错误
- 5.13 Go语言宕机(panic)
- 5.14 Go语言宕机恢复(recover)
- 5.15 Go语言计算函数执行时间
- 5.16 Go语言通过内存缓存来提升性能
- 5.17 Go语言函数的底层实现
- 5.18 Go语言Test功能测试函数详解
- 6.Go语言结构体
- 6.1 Go语言结构体定义
- 6.2 Go语言实例化结构体
- 6.3 Go语言初始化结构体的成员变量
- 6.4 Go语言构造函数
- 6.5 Go语言方法和接收器
- 6.6 Go语言为任意类型添加方法
- 6.7 Go语言使用事件系统实现事件的响应和处理
- 6.8 Go语言类型内嵌和结构体内嵌
- 6.9 Go语言结构体内嵌模拟类的继承
- 6.10 Go语言初始化内嵌结构体
- 6.11 Go语言内嵌结构体成员名字冲突
- 6.12 Go语言使用匿名结构体解析JSON数据
- 6.13 Go语言垃圾回收和SetFinalizer
- 6.14 Go语言将结构体数据保存为JSON格式数据
- 6.15 Go语言链表操作
- 6.16 Go语言数据I/O对象及操作
- 7.Go语言接口
- 7.1 Go语言接口声明
- 7.2 Go语言实现接口的条件
- 7.3 Go语言类型与接口的关系
- 7.4 Go语言类型断言简述
- 7.5 Go语言实现日志系统
- 7.6 Go语言排序
- 7.7 Go语言接口的嵌套组合
- 7.8 Go语言接口和类型之间的转换
- 7.9 Go语言空接口类型
- 7.10 Go语言使用空接口实现可以保存任意值的字典
- 7.11 Go语言类型分支
- 7.12 Go语言error接口
- 7.13 Go语言接口内部实现
- 7.14 Go语言表达式求值器
- 7.15 Go语言实现Web服务器
- 7.16 Go语言音乐播放器
- 7.17 Go语言实现有限状态机(FSM)
- 7.18 Go语言二叉树数据结构的应用
- 8.Go语言包
- 8.1 Go语言包的基本概念
- 8.2 Go语言封装简介及实现细节
- 8.3 Go语言GOPATH详解
- 8.4 Go语言常用内置包简介
- 8.5 Go语言自定义包
- 8.6 Go语言package
- 8.7 Go语言导出包中的标识符
- 8.8 Go语言import导入包
- 8.9 Go语言工厂模式自动注册
- 8.10 Go语言单例模式简述
- 8.11 Go语言sync包与锁
- 8.12 Go语言big包
- 8.13 Go语言使用图像包制作GIF动画
- 8.14 Go语言正则表达式
- 8.15 Go语言time包
- 8.16 Go语言os包用法简述
- 8.17 Go语言flag包
- 8.18 Go语言go mod包依赖管理工具使用详解
- 8.19 Go语言生成二维码
- 8.20 Go语言Context(上下文)
- 8.21 客户信息管理系统
- 8.22 Go语言发送电子邮件
- 8.23 Go语言(Pingo)插件化开发
- 8.24 Go语言定时器实现原理及作用
- 9.Go语言并发
- Go语言并发简述(并发的优势)
- Go语言goroutine(轻量级线程)
- Go语言并发通信
- Go语言竞争状态简述
- Go语言GOMAXPROCS(调整并发的运行性能)
- 并发和并行的区别
- goroutine和coroutine的区别
- Go语言通道(chan)——goroutine之间通信的管道
- Go语言并发打印(借助通道实现)
- Go语言单向通道——通道中的单行道
- Go语言无缓冲的通道
- Go语言带缓冲的通道
- Go语言channel超时机制
- Go语言通道的多路复用——同时处理接收和发送多个通道的数据
- Go语言RPC(模拟远程过程调用)
- Go语言使用通道响应计时器的事件
- Go语言关闭通道后继续使用通道
- Go语言多核并行化
- Go语言Telnet回音服务器——TCP服务器的基本结构
- Go语言竞态检测——检测代码在并发环境下可能出现的问题
- Go语言互斥锁(sync.Mutex)和读写互斥锁(sync.RWMutex)
- Go语言等待组(sync.WaitGroup)
- Go语言死锁、活锁和饥饿概述
- Go语言封装qsort快速排序函数
- Go语言CSP:通信顺序进程简述
- Go语言聊天服务器
- 10.Go语言反射
- Go语言反射(reflection)简述
- Go语言反射规则浅析
- Go语言reflect.TypeOf()和reflect.Type(通过反射获取类型信息)
- Go语言reflect.Elem()——通过反射获取指针指向的元素类型
- Go语言通过反射获取结构体的成员类型
- Go语言结构体标签(Struct Tag)
- Go语言reflect.ValueOf()和reflect.Value(通过反射获取值信息)
- Go语言通过反射访问结构体成员的值
- Go语言IsNil()和IsValid()——判断反射值的空和有效性
- Go语言通过反射修改变量的值
- Go语言通过类型信息创建实例
- Go语言通过反射调用函数
- Go语言inject库:依赖注入
- 11.Go语言网络编程
- Go语言Socket编程详解
- Go语言Dial()函数:建立网络连接
- Go语言ICMP协议:向主机发送消息
- Go语言TCP协议
- Go语言DialTCP():网络通信
- Go语言HTTP客户端实现简述
- Go语言服务端处理HTTP、HTTPS请求
- Go语言RPC协议:远程过程调用
- 如何设计优雅的RPC接口
- Go语言解码未知结构的JSON数据
- Go语言如何搭建网站程序
- Go语言开发一个简单的相册网站
- Go语言数据库(Database)相关操作
- 示例:并发时钟服务器
- Go语言router请求路由
- Go语言middleware:Web中间件
- Go语言常见大型Web项目分层(MVC架构)
- Go语言Cookie的设置与读取
- Go语言获取IP地址和域名解析
- Go语言TCP网络程序设计
- Go语言UDP网络程序设计
- Go语言IP网络程序设计
- Go语言是如何使得Web工作的
- Go语言session的创建和管理
- Go语言Ratelimit服务流量限制
- Go语言WEB框架(Gin)详解
- 12.Go语言文件处理
- Go语言自定义数据文件
- Go语言JSON文件的读写操作
- Go语言XML文件的读写操作
- Go语言使用Gob传输数据
- Go语言纯文本文件的读写操作
- Go语言二进制文件的读写操作
- Go语言自定义二进制文件的读写操作
- Go语言zip归档文件的读写操作
- Go语言tar归档文件的读写操作
- Go语言使用buffer读取文件
- Go语言并发目录遍历
- Go语言从INI配置文件中读取需要的值
- Go语言文件的写入、追加、读取、复制操作
- Go语言文件锁操作
- 13.Go语言网络爬虫
- Go语言网络爬虫概述
- Go语言网络爬虫中的基本数据结构
- Go语言网络爬虫的接口设计
- Go语言网络爬虫缓冲器工具的实现
- Go语言网络爬虫缓冲池工具的实现
- Go语言网络爬虫多重读取器的实现
- Go语言网络爬虫内部基础接口
- Go语言网络爬虫组件注册器
- Go语言网络爬虫下载器接口
- Go语言网络爬虫分析器接口
- Go语言网络爬虫条目处理管道
- Go语言网络爬虫调度器的实现
- Go语言爬取图片小程序
- 14.Go语言编译和工具链
- go build命令(go语言编译命令)完全攻略
- go clean命令——清除编译文件
- go run命令——编译并运行
- go fmt命令——格式化代码文件
- go install命令——编译并安装
- go get命令——一键获取代码、编译并安装
- go generate命令——在编译前自动化生成某类代码
- go test命令(Go语言测试命令)完全攻略
- go pprof命令(Go语言性能分析命令)完全攻略
- 15.Go语言避坑与技巧
- goroutine(Go语言并发)如何使用才更加高效?
- Go语言反射——性能和灵活性的双刃剑
- Go语言接口的nil判断
- Go语言map的多键索引——多个数值条件可以同时查询
- Go语言与C/C++进行交互
- Go语言文件读写
- Json数据编码和解码
- Go语言使用select切换协程
- Go语言加密通信
- Go语言内存管理简述
- Go语言垃圾回收
- Go语言哈希函数
- Go语言分布式id生成器
- 部署Go语言程序到Linux服务器
- Go语言实现RSA和AES加解密
