19. 正则表达式
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
- 需要引入内置模块re
- 缺点:效率低下,能用字符串方法完成尽量使用字符串的方法
- 优点:编码简单
一、正则表达式
###1. 为什么使用正则表达式
- 使用场景
- 敏感词过滤
- 手机、邮箱等验证
- 爬虫
2. 正则表达式的组成
原子
组成正则表达式的最小单位,任何字符都可以
原子 含义 原子 含义 \d 0-9中任何一个字符 \w 0-9a-z_的中任何一个字符 \D 非0-9中的任何一个字符 [^0-9]
\W 非0-9a-zA-Z_的中任何一个字符[^0-9a-z_A-Z] \s \n\r\t 空格 . 代表除\n之外的任何字符 \S 非\n\r\t 空格中任何一个字符 [^\n\t\r ]
\b 词边界 [] 自己创建的原子表,[0-4]代表0-4中任何一个字符 \B 非词边界