分区策略 · k8s原理与实践

[TOC] # 分区策略 OceanBase 支持多种分区策略： * 范围（RANGE）分区 * RANGE COLUMNS 分区 * 列表（LIST）分区 * LIST COLUMNS 分区 * 哈希（HASH）分区 * 组合分区 ## 范围（RANGE）分区 RANGE 分区根据分区表定义时为每个分区建立的分区键值范围，将数据映射到相应的分区中。它是常见的分区类型，经常跟日期类型一起使用。比如说，可以将业务日志表按日/周/月分区。RANGE 分区简单的语法格式如下： ~~~ CREATE TABLE table_name ( column_name1 column_type [, column_nameN column_type] ) PARTITION BY RANGE ( expr(column_name1) ) ( PARTITION p0 VALUES LESS THAN ( expr ) [, PARTITION pN VALUES LESS THAN (expr ) ] [, PARTITION pX VALUES LESS THAN (maxvalue) ] ); ~~~ 当使用 RANGE 分区时，需要遵守如下几个规则： * PARTITION BY RANGE ( expr ) 里的 expr 表达式的结果必须为整形。 * 每个分区都有一个 VALUES LESS THAN 子句，它为分区指定一个非包含的上限值。分区键的任何值等于或大于这个值时将被映射到下一个分区中。 * 除第一个分区外，所有分区都隐含一个下限值，即上一个分区的上限值。 * 允许且只允许最后一个分区上限定义为 MAXVALUE ，这个值没有具体的数值，比其他所有分区的上限都要大，也包含空值。示例：创建一个 RANGE 分区表。 ~~~ CREATE TABLE t_log_part_by_range ( log_id bigint NOT NULL , log_value varchar(50) , log_date timestamp NOT NULL ) PARTITION BY RANGE(UNIX_TIMESTAMP(log_date)) ( PARTITION M202001 VALUES LESS THAN(UNIX_TIMESTAMP('2020/02/01')) , PARTITION M202002 VALUES LESS THAN(UNIX_TIMESTAMP('2020/03/01')) , PARTITION M202003 VALUES LESS THAN(UNIX_TIMESTAMP('2020/04/01')) , PARTITION M202004 VALUES LESS THAN(UNIX_TIMESTAMP('2020/05/01')) , PARTITION M202005 VALUES LESS THAN(UNIX_TIMESTAMP('2020/06/01')) , PARTITION M202006 VALUES LESS THAN(UNIX_TIMESTAMP('2020/07/01')) , PARTITION M202007 VALUES LESS THAN(UNIX_TIMESTAMP('2020/08/01')) , PARTITION M202008 VALUES LESS THAN(UNIX_TIMESTAMP('2020/09/01')) , PARTITION M202009 VALUES LESS THAN(UNIX_TIMESTAMP('2020/10/01')) , PARTITION M202010 VALUES LESS THAN(UNIX_TIMESTAMP('2020/11/01')) , PARTITION M202011 VALUES LESS THAN(UNIX_TIMESTAMP('2020/12/01')) , PARTITION M202012 VALUES LESS THAN(UNIX_TIMESTAMP('2021/01/01')) ); ~~~ RANGE 分区可以新增、删除分区。如果最后一个 RANGE 分区指定了 MAXVALUE ，则不能新增分区。 RANGE 分区要求表拆分键表达式的结果必须为整型，如果要按时间类型列做 RANGE 分区，则必须使用 timestamp 类型，并且使用函数 UNIX\_TIMESTAMP 将时间类型转换为数值。这个需求也可以使用 RANGE COLUMNS 分区实现，就没有整型这个要求。 ## RANGE COLUMNS 分区 RANGE COLUMNS 分区作用跟 RANGE 分区基本类似，不同之处在于： * RANGE COLUMNS 拆分列结果不要求是整型，可以是任意类型。 * RANGE COLUMNS 拆分列不能使用表达式。 * RANGE COLUMNS 拆分列可以写多个列（即列向量）。 RANGE COLUMNS 分区的简单语法格式如下： ~~~ CREATE TABLE table_name ( column_name1 column_type [, column_nameN column_type] ) PARTITION BY RANGE ( column_name1 [, column_name2] ) ( PARTITION p0 VALUES LESS THAN ( expr ) [, PARTITION pN VALUES LESS THAN (expr ) ] [, PARTITION pX VALUES LESS THAN (maxvalue) ] ); ~~~ 示例：创建一个 RANGE COLUMNS 分区 ~~~ CREATE TABLE t_log_part_by_range_columns ( log_id bigint NOT NULL , log_value varchar(50) , log_date date NOT NULL ) PARTITION BY RANGE COLUMNS(log_date) ( PARTITION M202001 VALUES LESS THAN('2020/02/01') , PARTITION M202002 VALUES LESS THAN('2020/03/01') , PARTITION M202003 VALUES LESS THAN('2020/04/01') , PARTITION M202004 VALUES LESS THAN('2020/05/01') , PARTITION M202005 VALUES LESS THAN('2020/06/01') , PARTITION M202006 VALUES LESS THAN('2020/07/01') , PARTITION M202007 VALUES LESS THAN('2020/08/01') , PARTITION M202008 VALUES LESS THAN('2020/09/01') , PARTITION M202009 VALUES LESS THAN('2020/10/01') , PARTITION M202010 VALUES LESS THAN('2020/11/01') , PARTITION M202011 VALUES LESS THAN('2020/12/01') , PARTITION M202012 VALUES LESS THAN('2021/01/01') , PARTITION MMAX VALUES LESS THAN MAXVALUE ); ~~~ ## 列表（LIST）分区 LIST 分区使得您可以显式的控制记录行如何映射到分区，具体方法是为每个分区的分区键指定一组离散值列表，这点跟 RANGE 分区和 HASH 分区都不同。LIST 分区的优点是可以方便的对无序或无关的数据集进行分区。LIST 分区的简单语法格式如下： ~~~ CREATE TABLE table_name ( column_name1 column_type [, column_nameN column_type] ) PARTITION BY LIST ( expr(column_name1) ) ( PARTITION p0 VALUES IN ( v01 [, v0N] ) [, PARTITION pN VALUES IN ( vN1 [, vNN] ) ] [, PARTITION pX VALUES IN (default) ] ); ~~~ 当使用列表分区时，需要遵守以下规则： * 分区表达式结果必须是整型。 * 分区表达式只能引用一列，不能有多列（即列向量）。示例：创建一个 LIST 分区表。 ~~~ CREATE TABLE t_part_by_list ( c1 BIGINT PRIMARY KEY , c2 VARCHAR(50) ) PARTITION BY list(c1) ( PARTITION p0 VALUES IN (1, 2, 3) , PARTITION p1 VALUES IN (5, 6) , PARTITION p2 VALUES IN (DEFAULT) ); ~~~ LIST 分区可以新增分区，指定新的不重复的列表。也可以删除分区。 ## LIST COLUMNS 分区 LIST COLUMNS 分区作用跟 LIST 分区基本相同，不同之处在于： * LIST COLUMNS 的拆分列不能是表达式。 * LIST COLUMNS 的拆分列可以是多列（即列向量）。 LIST COLUMNS 分区简单的语法格式如下： ~~~ CREATE TABLE table_name ( column_name1 column_type [, column_nameN column_type] ) PARTITION BY LIST COLUMNS ( column_name1 [, column_nameN ] ) ( PARTITION p0 VALUES IN ( v01 [, v0N] ) [, PARTITION pN VALUES IN ( vN1 [, vNN] ) ] [, PARTITION pX VALUES IN (default) ] ); ~~~ 示例：创建一个 LIST COLUMNS 分区 ~~~ CREATE TABLE t2 ( id varchar(64), type varchar(16), info varchar(512), gmt_create datetime(6), gmt_modified datetime(6), partition_id varchar(2) GENERATED ALWAYS AS (substr(`id`,19,20)) VIRTUAL, PRIMARY KEY (id) ) partition by list columns(partition_id) (partition p0 values in ('00','01'), partition p1 values in ('02','03'), partition p2 values in (default)); ~~~ ## 哈希（HASH）分区 HASH 分区适合于对不能用 RANGE 分区、LIST 分区方法的场景，它的实现方法简单，通过对分区键上的 HASH 函数值来散列记录到不同分区中。如果您的数据符合下列特点，使用 HASH 分区是个很好的选择： * 不能指定数据的分区键的列表特征。 * 不同范围内的数据大小相差非常大，并且很难手动调整均衡。 * 使用 RANGE 分区后数据聚集严重。 * 并行 DML、分区剪枝和分区连接等性能非常重要。示例：创建一个 HASH 分区表。 ~~~ CREATE TABLE ware( w_id int , w_ytd number(12,2) , w_tax number(4,4) , w_name varchar(10) , w_street_1 varchar(20) , w_street_2 varchar(20) , w_city varchar(20) , w_state char(2) , w_zip char(9) , primary key(w_id) ) PARTITION by hash(w_id) partitions 60; ~~~ HASH 分区不适合做删除操作。 ## 组合分区组合分区通常是先使用一种分区策略，然后在子分区再使用另外一种分区策略，适合于业务表的数据量非常大时。使用组合分区能发挥多种分区策略的优点。在指定二级分区分区策略细节时，可以使用 SUBPARTITION TEMPLATE 子句。示例：创建组合分区表。 ~~~ CREATE TABLE t_ordr_part_by_hash_range (o_w_id int , o_d_id int , o_id int , o_c_id int , o_carrier_id int , o_ol_cnt int , o_all_local int , o_entry_d TIMESTAMP NOT NULL , index idx_ordr(o_w_id, o_d_id, o_c_id, o_id) LOCAL , primary key ( o_w_id, o_d_id, o_id, o_entry_d ) ) PARTITION BY hash(o_w_id) SUBPARTITION BY RANGE(UNIX_TIMESTAMP(o_entry_d)) SUBPARTITION template ( SUBPARTITION M202001 VALUES LESS THAN(UNIX_TIMESTAMP('2020/02/01')) , SUBPARTITION M202002 VALUES LESS THAN(UNIX_TIMESTAMP('2020/03/01')) , SUBPARTITION M202003 VALUES LESS THAN(UNIX_TIMESTAMP('2020/04/01')) , SUBPARTITION M202004 VALUES LESS THAN(UNIX_TIMESTAMP('2020/05/01')) , SUBPARTITION M202005 VALUES LESS THAN(UNIX_TIMESTAMP('2020/06/01')) , SUBPARTITION M202006 VALUES LESS THAN(UNIX_TIMESTAMP('2020/07/01')) , SUBPARTITION M202007 VALUES LESS THAN(UNIX_TIMESTAMP('2020/08/01')) , SUBPARTITION M202008 VALUES LESS THAN(UNIX_TIMESTAMP('2020/09/01')) , SUBPARTITION M202009 VALUES LESS THAN(UNIX_TIMESTAMP('2020/10/01')) , SUBPARTITION M202010 VALUES LESS THAN(UNIX_TIMESTAMP('2020/11/01')) , SUBPARTITION M202011 VALUES LESS THAN(UNIX_TIMESTAMP('2020/12/01')) , SUBPARTITION M202012 VALUES LESS THAN(UNIX_TIMESTAMP('2021/01/01')) , SUBPARTITION MMAX VALUES LESS THAN MAXVALUE ) partitions 16; CREATE TABLE t_log_part_by_range_hash ( log_id int NOT NULL , log_value varchar(50) , log_date TIMESTAMP NOT NULL , PRIMARY key(log_id, log_date) ) PARTITION BY RANGE(UNIX_TIMESTAMP(log_date)) SUBPARTITION BY HASH(log_id) SUBPARTITIONS 16 ( PARTITION M202001 VALUES LESS THAN(UNIX_TIMESTAMP('2020/02/01')) , PARTITION M202002 VALUES LESS THAN(UNIX_TIMESTAMP('2020/03/01')) , PARTITION M202003 VALUES LESS THAN(UNIX_TIMESTAMP('2020/04/01')) , PARTITION M202004 VALUES LESS THAN(UNIX_TIMESTAMP('2020/05/01')) , PARTITION M202005 VALUES LESS THAN(UNIX_TIMESTAMP('2020/06/01')) , PARTITION M202006 VALUES LESS THAN(UNIX_TIMESTAMP('2020/07/01')) , PARTITION M202007 VALUES LESS THAN(UNIX_TIMESTAMP('2020/08/01')) , PARTITION M202008 VALUES LESS THAN(UNIX_TIMESTAMP('2020/09/01')) , PARTITION M202009 VALUES LESS THAN(UNIX_TIMESTAMP('2020/10/01')) , PARTITION M202010 VALUES LESS THAN(UNIX_TIMESTAMP('2020/11/01')) , PARTITION M202011 VALUES LESS THAN(UNIX_TIMESTAMP('2020/12/01')) , PARTITION M202012 VALUES LESS THAN(UNIX_TIMESTAMP('2021/01/01')) , PARTITION MMAX VALUES LESS THAN MAXVALUE ); ~~~