SQL 执行计划 · k8s原理与实践

[TOC] # SQL 执行计划简介执行计划（EXPLAIN）是对一条 SQL 查询语句在数据库中执行过程的描述。用户可以通过`EXPLAIN`命令查看优化器针对给定 SQL 生成的逻辑执行计划。如果要分析某条 SQL 的性能问题，通常需要先查看 SQL 的执行计划，排查每一步 SQL 执行是否存在问题。所以读懂执行计划是 SQL 优化的先决条件，而了解执行计划的算子是理解`EXPLAIN`命令的关键。 ## EXPLAIN 命令格式 OceanBase 数据库的执行计划命令有三种模式：`EXPLAIN BASIC`、`EXPLAIN`和`EXPLAIN EXTENDED`。这三种模式对执行计划展现不同粒度的细节信息: * `EXPLAIN BASIC`命令用于最基本的计划展示。 * `EXPLAIN EXTENDED`命令用于最详细的计划展示（通常在排查问题时使用这种展示模式）。 * `EXPLAIN`命令所展示的信息可以帮助普通用户了解整个计划的执行方式。命令格式如下： ~~~ EXPLAIN [BASIC | EXTENDED | PARTITIONS | FORMAT = format_name] explainable_stmt format_name: { TRADITIONAL | JSON } explainable_stmt: { SELECT statement | DELETE statement | INSERT statement | REPLACE statement | UPDATE statement } ~~~ ## 执行计划形状与算子信息在数据库系统中，执行计划在内部通常是以树的形式来表示的，但是不同的数据库会选择不同的方式展示给用户。如下示例分别为 PostgreSQL 数据库、Oracle 数据库和 OceanBase 数据库对于 TPCDS Q3 的计划展示。 ~~~ obclient>SELECT /*TPC-DS Q3*/ * FROM (SELECT dt.d_year, item.i_brand_id brand_id, item.i_brand brand, Sum(ss_net_profit) sum_agg FROM date_dim dt, store_sales, item WHERE dt.d_date_sk = store_sales.ss_sold_date_sk AND store_sales.ss_item_sk = item.i_item_sk AND item.i_manufact_id = 914 AND dt.d_moy = 11 GROUP BY dt.d_year, item.i_brand, item.i_brand_id ORDER BY dt.d_year, sum_agg DESC, brand_id) WHERE rownum <= 100; ~~~ * PostgreSQL 数据库执行计划展示如下： ~~~ Limit (cost=13986.86..13987.20 rows=27 width=91) -> Sort (cost=13986.86..13986.93 rows=27 width=65) Sort Key: dt.d_year, (sum(store_sales.ss_net_profit)), item.i_brand_id -> HashAggregate (cost=13985.95..13986.22 rows=27 width=65) -> Merge Join (cost=13884.21..13983.91 rows=204 width=65) Merge Cond: (dt.d_date_sk = store_sales.ss_sold_date_sk) -> Index Scan using date_dim_pkey on date_dim dt (cost=0.00..3494.62 rows=6080 width=8) Filter: (d_moy = 11) -> Sort (cost=12170.87..12177.27 rows=2560 width=65) Sort Key: store_sales.ss_sold_date_sk -> Nested Loop (cost=6.02..12025.94 rows=2560 width=65) -> Seq Scan on item (cost=0.00..1455.00 rows=16 width=59) Filter: (i_manufact_id = 914) -> Bitmap Heap Scan on store_sales (cost=6.02..658.94 rows=174 width=14) Recheck Cond: (ss_item_sk = item.i_item_sk) -> Bitmap Index Scan on store_sales_pkey (cost=0.00..5.97 rows=174 width=0) Index Cond: (ss_item_sk = item.i_item_sk) ~~~ * Oracle 数据库执行计划展示如下： ~~~ Plan hash value: 2331821367 -------------------------------------------------------------------------------------------------- | Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time | -------------------------------------------------------------------------------------------------- | 0 | SELECT STATEMENT | | 100 | 9100 | 3688 (1)| 00:00:01 | |* 1 | COUNT STOPKEY | | | | | | | 2 | VIEW | | 2736 | 243K| 3688 (1)| 00:00:01 | |* 3 | SORT ORDER BY STOPKEY | | 2736 | 256K| 3688 (1)| 00:00:01 | | 4 | HASH GROUP BY | | 2736 | 256K| 3688 (1)| 00:00:01 | |* 5 | HASH JOIN | | 2736 | 256K| 3686 (1)| 00:00:01 | |* 6 | TABLE ACCESS FULL | DATE_DIM | 6087 | 79131 | 376 (1)| 00:00:01 | | 7 | NESTED LOOPS | | 2865 | 232K| 3310 (1)| 00:00:01 | | 8 | NESTED LOOPS | | 2865 | 232K| 3310 (1)| 00:00:01 | |* 9 | TABLE ACCESS FULL | ITEM | 18 | 1188 | 375 (0)| 00:00:01 | |* 10 | INDEX RANGE SCAN | SYS_C0010069 | 159 | | 2 (0)| 00:00:01 | | 11 | TABLE ACCESS BY INDEX ROWID| STORE_SALES | 159 | 2703 | 163 (0)| 00:00:01 | -------------------------------------------------------------------------------------------------- ~~~ * OceanBase 数据库执行计划展示如下： ~~~ |ID|OPERATOR |NAME |EST. ROWS|COST | ------------------------------------------------------- |0 |LIMIT | |100 |81141| |1 | TOP-N SORT | |100 |81127| |2 | HASH GROUP BY | |2924 |68551| |3 | HASH JOIN | |2924 |65004| |4 | SUBPLAN SCAN |VIEW1 |2953 |19070| |5 | HASH GROUP BY | |2953 |18662| |6 | NESTED-LOOP JOIN| |2953 |15080| |7 | TABLE SCAN |ITEM |19 |11841| |8 | TABLE SCAN |STORE_SALES|161 |73 | |9 | TABLE SCAN |DT |6088 |29401| ======================================================= ~~~ 由示例可见，OceanBase 数据库的计划展示与 Oracle 数据库类似。OceanBase 数据库执行计划中的各列的含义如下： <div id="div-6ac-d3k-14s"><table cols="2" id="table-unw-nt7-1ga" class="table"><colgroup colname="col1" colnum="1" colwidth="1*" id="colgroup-e83-wu3-acc" style="width:50%"></colgroup><colgroup colname="col2" colnum="2" colwidth="1*" id="colgroup-lqd-6fr-bee" style="width:50%"></colgroup><thead id="thead-jwt-p8w-7b1" class="thead"><tr id="tr-0a7-zol-l88"><th id="td-p21-a5u-mtb"><p id="p-u93-nt1-2o5">列名</p></th><th id="td-jch-zwm-6hx"><p id="p-pmp-ja7-3q8">含义</p></th></tr></thead><tbody id="tbody-zmb-9ys-1of" class="tbody"><tr id="tr-ld9-hy0-dc9"><td id="td-5xl-7a4-25j"><p id="p-vjf-n2o-3x6">ID</p></td><td id="td-70i-e7i-exf"><p id="p-9tx-12y-72x">执行树按照前序遍历的方式得到的编号（从 0 开始）。</p></td></tr><tr id="tr-eak-2ke-2oe"><td id="td-lx5-isf-bf8"><p id="p-jux-xx0-qpr">OPERATOR</p></td><td id="td-2bx-jtk-yl2"><p id="p-kn0-034-a1u">操作算子的名称。</p></td></tr><tr id="tr-wt1-u8o-5gf"><td id="td-bjf-0mf-zcj"><p id="p-kc0-a2l-nq4">NAME</p></td><td id="td-q44-k0h-0ul"><p id="p-z9i-noi-hwt">对应表操作的表名（索引名）。</p></td></tr><tr id="tr-r2t-190-hus"><td id="td-p06-32t-ht4"><p id="p-ov3-gy3-ol6">EST. ROWS</p></td><td id="td-swc-jvn-ge8"><p id="p-mw1-lci-1ka">估算该操作算子的输出行数。</p></td></tr><tr id="tr-5ch-7c9-a3w"><td id="td-4uk-7ba-67a"><p id="p-tu6-ssn-c4a">COST</p></td><td id="td-9pb-ch2-kee"><p id="p-zw3-xkh-vxb">该操作算子的执行代价（微秒）。</p></td></tr></tbody></table></div> **说明** 在表操作中，NAME 字段会显示该操作涉及的表的名称（别名），如果是使用索引访问，还会在名称后的括号中展示该索引的名称，例如 t1(t1\_c2) 表示使用了 t1\_c2 这个索引。如果扫描的顺序是逆序，还会在后面使用 RESERVE 关键字标识，例如`t1(t1_c2,RESERVE)`。 OceanBase 数据库`EXPLAIN`命令输出的第一部分是执行计划的树形结构展示。其中每一个操作在树中的层次通过其在 operator 中的缩进予以展示。树的层次关系用缩进来表示，层次最深的优先执行，层次相同的以特定算子的执行顺序为标准来执行。上述 TPCDS Q3 示例的计划展示树如下: ![](https://img.kancloud.cn/53/79/53793898a55c0f19336171be1cb3e604_456x562.png) OceanBase 数据库`EXPLAIN`命令输出的第二部分是各操作算子的详细信息，包括输出表达式、过滤条件、分区信息以及各算子的独有信息（包括排序键、连接键、下压条件等）。示例如下： ~~~ Outputs & filters: ------------------------------------- 0 - output([t1.c1], [t1.c2], [t2.c1], [t2.c2]), filter(nil), sort_keys([t1.c1, ASC], [t1.c2, ASC]), prefix_pos(1) 1 - output([t1.c1], [t1.c2], [t2.c1], [t2.c2]), filter(nil), equal_conds([t1.c1 = t2.c2]), other_conds(nil) 2 - output([t2.c1], [t2.c2]), filter(nil), sort_keys([t2.c2, ASC]) 3 - output([t2.c2], [t2.c1]), filter(nil), access([t2.c2], [t2.c1]), partitions(p0) 4 - output([t1.c1], [t1.c2]), filter(nil), access([t1.c1], [t1.c2]), partitions(p0) ~~~