intset 编码 · Redis 为什么这么快

`intset`（整数集合）可以保存类型为`int16_t`、`int32_t`、`int64_t`的整数值，并且保证集合中没有重复元素。 `intset`数据结构定义如下（源码`inset.h`内）： ~~~c typedef struct intset { uint32_t encoding;//编码方式 uint32_t length;//当前集合中的元素数量 int8_t contents[];//集合中具体的元素 } intset; ~~~ 下图就是一个`intset`的集合对象简图： ![](https://img.kancloud.cn/51/ed/51ed011a3b9fb736a72793abd447cab1_699x276.png) #### encoding 在`intset`内部的`encoding`记录了当前整数集合的数据存储类型，主要有三种： * `INTSET_ENC_INT16`：此时`contents[]`内的每个元素都是一个`int16_t`类型的整数值，范围是：-32768 ~ 32767（-2 的 15 次方 ~ 2 的 15 次方 - 1）。 * `INTSET_ENC_INT32`：此时`contents[]`内的每个元素都是一个`int32_t`类型的整数值，范围是：-2147483648 ~ 2147483647（-2 的 31 次方 ~ 2 的 31 次方 - 1）。 * `INTSET_ENC_INT64`：此时`contents[]`内的每个元素都是一个`int64_t`类型的整数值，范围是：-9223372036854775808 ~ 9223372036854775807（-2 的 63 次方 ~ 2 的 63 次方 - 1）。 #### contents\[\] `contents[]`虽然结构上的定义写的是`int8_t`类型，但实际存储类型是由上面的`encoding`来决定的。 #### 整数集合的升级假如一开始整数集合中的元素都是`16`位的，采用了`int16_t`类型来存储，此时需要再存储一个`32`位的整数，那么就需要对原先的整数集合进行升级，升级之后才能将`32`位的整数存储到整数集合内。这就涉及到了整数集合的类型升级，升级过程主要有`4`个步骤： 1. 根据新添加元素的类型来扩展底层数组空间的大小，按照升级后现有元素的位数来分配新的空间。 2. 将现有的元素进行类型转换，并将转换类型后的元素从后到前逐个重新放回到数组内。 3. 将新元素放到数组的头部或者尾部（因为触发升级的条件就是当前数组的整数类型无法存储新元素，所以新元素要么比现有元素都大，要么就比现有元素都小）。 4. 将`encoding`属性修改为最新的编码，并且同步修改`length`属性。 PS：**和字符串对象的编码一样，整数集合的类型一旦发生升级，将会保持编码，无法降级**。 #### 升级示例 1. 假如我们有一个集合存储的`encoding`是`int16_t`，内部存储了`3`个元素： ![](https://img.kancloud.cn/ae/69/ae6993edb4e0d7ffc6ca03fdc73dfdc9_528x125.png) 2. 这时候需要插入一个整数`50000`，发现存储不下去，而`50000`是一个`int32_t`类型整数，所以需要申请新空间，申请空间大小为`4 * 32 - 48=80`： ![](https://img.kancloud.cn/0e/23/0e2311eb31bfdb0546ee9f9801d55b74_657x127.png) 3. 现在新的数组内要放置`4`个元素，原来的数组排在第`3`，所以需要将升级后的`3`移动到`64-95`位： ![](https://img.kancloud.cn/5d/9b/5d9b7851557a8ca685d7e07165a935bd_764x116.png) 4. 继续将升级后的`2`移动到`32-63`位： ![](https://img.kancloud.cn/6d/98/6d98a6fd220df5c663134579bd6b0939_759x110.png) 5. 继续将升级后的`1`移动到`0-31`位： ![](https://img.kancloud.cn/ff/15/ff154e3dc093c18303e451fce2be3877_651x103.png) 6. 最后将`50000`放到`96-127`位： ![](https://img.kancloud.cn/f3/97/f39741983ae24006479010168e9478a6_642x118.png) 7. 最后会修改`encoding`和`length`属性，修改之后就完成了本次的升级。 #### hashtable 编码关于`hashtable`结构可以参考前面实验五。 #### intset 和 hashtable 编码转换当一个集合满足以下两个条件时，Redis 会选择使用`intset`编码： * 集合对象保存的所有元素都是整数值。 * 集合对象保存的元素数量小于等于`512`个（这个阈值可以通过配置文件`set-max-intset-entries`来控制）。一旦集合中的元素不满足上面两个条件，则会选择使用`hashtable`编码。