时间:2022-05-21 10:49:55 | 栏目:Python代码 | 点击:次
# ### 反向引用 import re strvar = "<div>明天又要休息了</div>" obj = re.search("<(.*?)>(.*?)<(.*?)>",strvar) print(obj) # 获取匹配到的内容 res1 = obj.group() print(res1) # 获取分组里的内容 res2 = obj.groups() print(res2) # 反向引用的语法 \1把第一个括号里面匹配到的内容在引用一次 obj = re.search(r"<(.*?)>(.*?)</\1>",strvar) print(obj) print(obj.group()) print(obj.groups()) strvar = " z3d4pzd a1b2cab " obj = re.search(r"(.*?)\d(.*?)\d(.*?)\1\2",strvar) print(obj) print(obj.group()) print(obj.groups()) # ### 命名分组 """ 3) (?P<组名>正则表达式) 给这个组起一个名字 4) (?P=组名) 引用之前组的名字,把该组名匹配到的内容放到当前位置 """ # 写法一 strvar = " z3d4pzd a1b2cab " obj = re.search(r"(?P<tag1>.*?)\d(?P<tag2>.*?)\d(?P<tag3>.*?)\1\2",strvar) print(obj) print(obj.group()) # 写法二 strvar = " z3d4pzd a1b2cab " obj = re.search(r"(?P<tag1>.*?)\d(?P<tag2>.*?)\d(?P<tag3>.*?)(?P=tag1)(?P=tag2)",strvar) print(obj) print(obj.group())
# ### 正则函数 import re # search 通过正则匹配出第一个对象返回,通过group取出对象中的值 strvar = "3+4 6*4" obj = re.search(r"(\d+[+*]\d+)",strvar) print(obj) # 获取匹配到的内容 print(obj.group()) # 获取分组当中的内容 (返回元组) print(obj.groups()) # match 验证用户输入内容 (了解) """search在正则表达式的前面加上^ 等价于 match ,其他用法上一模一样""" strvar = "a17366668888" strvar = "17366668888" # obj = re.search(r"^\d+",strvar) # obj = re.match(r"\d+",strvar) # print(obj.group()) print(obj) # split 切割 strvar = "alex|wusir_xboyww@risky" lst = re.split("[|_@]",strvar) print(lst) strvar = "alex2341273894wusir234234xboyww11111risky" lst = re.split("\d+",strvar) print(lst) # sub 替换 strvar = "alex|wusir_xboyww@risky" """ strvar = strvar.replace("|","&") strvar = strvar.replace("_","&") strvar = strvar.replace("@","&") print(strvar) """ # sub(正则,替换的字符,原字符串[,替换的次数]) res = re.sub("[|_@]","&",strvar) res = re.sub("[|_@]","&",strvar,1) print(res) # subn 替换 (用法上与sub相同,只是返回值不同) res = re.subn("[|_@]","&",strvar) res = re.subn("[|_@]","&",strvar,2) print(res) # res = re.sub("[|_@]","&",strvar) # ('alex&wusir&xboyww@risky', 2) # finditer 匹配字符串中相应内容,返回迭代器 """返回的是迭代器,迭代器中包含了对象 对象.group来获取匹配到的值""" from collections import Iterator, Iterable strvar = "sdf23647fdgdfg()*()*23423423" it = re.finditer("\d+",strvar) print(isinstance(it,Iterator)) for obj in it: print(obj.group()) # compile 指定一个统一的匹配规则 """ 正常情况下,正则表达式编译一次,执行一次 为了避免反复编译,节省时间空间,可以使用compile统一规则 编译一次,终身受益 """ strvar = "asdfs234sdf234" pattern = re.compile("\d+") print("<===>") obj = pattern.search(strvar) print(obj.group()) lst = pattern.findall(strvar) print(lst) # 修饰符 # re.I 使匹配对大小写不敏感 strvar = "<h1>大标题</H1>" pattern = re.compile("<h1>(.*?)</h1>" , flags=re.I) obj = pattern.search(strvar) print(obj.group()) # re.M 使每一行都能够单独匹配(多行匹配),影响 ^ 和 $ """单行独立匹配,而不是整体匹配""" strvar = """ <p>111</p> <a>222</a> <strong>333</strong> """ pattern = re.compile("^<.*?>(?:.*?)<.*?>$" , flags=re.M) lst = pattern.findall(strvar) print(lst) # re.S 使 . 匹配包括换行在内的所有字符 strvar = """ give sdfsdfmefive """ # 多个修饰符一起使用通过|拼接 pattern = re.compile(".*?mefive" , flags = re.S|re.I|re.M ) obj = pattern.search(strvar) print(obj.group())
爬虫爬数据的时候用finditer,数据太大,用迭代器存 strvar = """ <p>111</p> <a>222</a> <strong>333</strong> """ pattern = re.compile("^<.*?>(?:.*?)<.*?>$") lst = pattern.findall(strvar) print(lst) # 这里的结果为[] 因为.不匹配换行符,所以不会返回结果 pattern = re.compile("^<.*?>(?:.*?)<.*?>$",flags=re.M) 这里就是 一行的一行的匹配了 不会用for i in找思路 不会用.*?找思路