正则 · 测试文档

| 正则re模块 | | | --- | --- | | re.match(pattern, string, flags=0) | 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none | ``` * 参数 * @param [pattern] [匹配的正则表达式] * @param [string] [要匹配的字符串] * @param [flags] [标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志] * @return [匹配成功re.match方法返回一个匹配的对象，否则返回None] 实例 import re print(re.match('www', 'www.runoob.com').span()) # 在起始位置匹配 (0, 3) ``` | re.search方法 | 扫描整个字符串并返回第一个成功的匹配 | | --- | --- | ``` * [re.search(pattern, string, flags=0)] * 参数 * @param [pattern] [匹配的正则表达式] * @param [string] [要匹配的字符串] * @param [flags] [标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志] * @return [匹配成功re.match方法返回一个匹配的对象，否则返回None] ``` | re.sub方法 | 检索和替换 | | --- | --- | ``` * [re.sub(pattern, repl, string, count=0, flags=0)] * 参数 * @param [pattern] [正则中的模式字符串] * @param [repl] [替换的字符串，也可为一个函数] * @param [string] [要被查找替换的原始字符串] * @param [count] [模式匹配后替换的最大次数，默认 0 表示替换所有的匹配] * @param [flags] [标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志] * @return [返回替换过的字符串] ``` | re.compile方法 | 编译正则表达式 | | --- | --- | ``` * [re.compile(pattern[, flags])] [编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用] * 参数 * @param [pattern] [一个字符串形式的正则表达式] * @param [flags] [标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志] * @return [匹配成功时返回一个 Match 对象] ``` | findall | 匹配的所有子串 | | --- | --- | ``` * [findall(string[, pos[, endpos]])] [在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表] * 参数 * @param [string] [待匹配的字符串] * @param [pos] [可选参数，指定字符串的起始位置，默认为 0] * @param [endpos] [可选参数，指定字符串的结束位置，默认为字符串的长度] * @return [匹配成功时返回一个 Match 对象] 实例 re.compile(r'\d+') pattern.findall('runoob 123 google 456') #需要在编译正则表达式的基础上使用 ``` | re.findall | 匹配的所有子串 | | --- | --- | ``` * [re.finditer(pattern, string, flags=0)] [在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回] * 参数 * @param [pattern] [匹配的正则表达式] * @param [string] [待匹配的字符串] * @param [flags] [标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志] * @return [匹配成功时返回一个 Match 对象] ``` | re.split | 字符串分割 | | --- | --- | ``` * [re.split(pattern, string[, maxsplit=0, flags=0])] [按照能够匹配的子串将字符串分割后返回列表] * 参数 * @param [pattern] [匹配的正则表达式] * @param [string] [待匹配的字符串] * @param [maxsplit] [ 分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数] * @param [flags] [标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志] * @return [返回匹配到的字符串] ``` | 获取匹配的结果 | | | --- | --- | | group([group1, …]) | 获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 group() 或 group(0) | | start([group]) | 方法用于获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0 | | end([group]) | 方法用于获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为 0 | | span([group]) | 方法返回 (start(group), end(group)) | | re.match().span() | 使用方法，其它的一样 | | 表达式修饰符 - 可选标志 | 即flags，多个用 \| 隔开 | | --- | --- | | re.I | 使匹配对大小写不敏感 | | re.L | 做本地化识别（locale-aware）匹配 | | re.M | 多行匹配，影响 ^ 和 $ | | re.S | 使 . 匹配包括换行在内的所有字符 | | re.U | 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B. | | re.X | 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解 | | 表达式模式 | | | --- | --- | | ^ | 匹配字符串的开头 | | $ | 匹配字符串的末尾 | | . | 匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符 | | [...] | 用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k' | | [^...] | 不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符 | | re* | 匹配0个或多个的表达式 | | re+ | 匹配1个或多个的表达式 | | re? | 匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式 | | re{ n} | 精确匹配 n 个前面表达式。例如， o{2} 不能匹配 "Bob" 中的 "o"，但是能匹配 "food" 中的两个 o | | re{ n,} | 匹配 n 个前面表达式。例如， o{2,} 不能匹配"Bob"中的"o"，但能匹配 "foooood"中的所有 o。"o{1,}" 等价于 "o+"。"o{0,}" 则等价于 "o*" | | re{ n, m} | 匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式 | | a\| b | 匹配a或b | | (re) | 匹配括号内的表达式，也表示一个组 | | (?imx) | 正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域 | | (?-imx) | 正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域 | | (?: re) | 类似 (...), 但是不表示一个组 | | (?imx: re) | 在括号中使用i, m, 或 x 可选标志 | | (?-imx: re) | 在括号中不使用i, m, 或 x 可选标志 | | (?#...) | 注释. | | (?= re) | 前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边 | | (?! re) | 前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功 | | (?> re) | 匹配的独立模式，省去回溯 | | \w | 匹配字母数字及下划线,等价于[A-Za-z0-9_] | | \W | 匹配非字母数字及下划线,等价于[^A-Za-z0-9_] | | \s | 匹配任意空白字符，等价于 [\t\n\r\f]. | | \S | 匹配任意非空字符，等价于 [^\t\n\r\f] | | \d | 匹配任意数字，等价于 [0-9]. | | \D | 匹配任意非数字, 等价于 [^0-9] | | \A | 匹配字符串开始 | | \Z | 匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串 | | \z | 匹配字符串结束 | | \G | 匹配最后匹配完成的位置 | | \b | 匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er' | | \B | 匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er' | | \n, \t, | 等. 匹配一个换行符。匹配一个制表符。等 | | \1...\9 | 匹配第n个分组的内容 | | \10 | 匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式 | | [ ] 模式实例部分 | | | --- | --- | | [Pp]ython | 匹配 "Python" 或 "python" | | rub[ye] | 匹配 "ruby" 或 "rube" | | [aeiou] | 匹配中括号内的任意一个字母 | | [0-9] | 匹配任何数字。类似于 [0123456789] | | [a-z] | 匹配任何小写字母 | | [A-Z] | 匹配任何大写字母 | | [a-zA-Z0-9] | 匹配任何字母及数字 | | [^aeiou] | 除了aeiou字母以外的所有字符 | | [^0-9] | 匹配除了数字外的字符 | | 实例解析 | | | --- | --- | | r'(.\*) are (.\*?) .*' | | ``` * 这是一个字符串，前面的一个 r 表示字符串为非转义的原始字符串，让编译器忽略反斜杠，也就是忽略转义字符。但是这个字符串里没有反斜杠，所以这个 r 可有可无 * (.*) 第一个匹配分组，.* 代表匹配除换行符之外的所有字符 * (.*?) 第二个匹配分组，.*? 后面多个问号，代表非贪婪模式，也就是说只匹配符合条件的最少字符 * 后面的一个 .* 没有括号包围，所以不是分组，匹配效果和第一个一样，但是不计入匹配结果中 #身份证分组匹配 import re card_code = '1102231990xxxxxxxx' res = re.search('(?P<province>\d{3})(?P<city>\d{3})(?P<born_year>\d{4})',s) print(res.groupdict()) # {'province': '110', 'city': '223', 'born_year': '1990'} 直接将匹配结果直接转为字典模式，方便使用 ```