时间:2022-06-30 09:27:42 | 栏目:Python代码 | 点击:次
正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。
Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。
re 模块使 Python 语言拥有全部的正则表达式功能。
主要用到下面几个函数
(1)compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。
语法格式为:
re.compile(pattern[, flags])
参数:
(2)re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
函数语法:
re.match(pattern, string, flags=0)
(3)re.search 扫描整个字符串并返回第一个成功的匹配。
函数语法:
re.search(pattern, string, flags=0)
注:
re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。
(4)findall
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
注意: match 和 search 是匹配一次 findall 匹配所有。
语法格式为:
findall(string[, pos[, endpos]])
参数:
string 待匹配的字符串。
pos 可选参数,指定字符串的起始位置,默认为 0。
endpos 可选参数,指定字符串的结束位置,默认为字符串的长度。
下面是实现的具体方法:
def findnum(string): comp=re.compile(-?[1-9]\d*) list_str=comp.findall(string) list_num=[] for item in list_str: item=int(item) list_num.append(item) return list_num
re.compile()的一些匹配参数:
使用python的正则表达式抽取文本中的年月日信息,如2020年5月19日。
def find_time(yanbao_txt, entity): paras = [para.strip() for para in yanbao_txt.split('\n') if para.strip()][:5] for para in paras: ret = re.findall(r'(\d{4})\s*[\./年-]\s*(\d{1,2})\s*[\./月-]\s*(\d{1,2})\s*日?', para) if ret: year, month, day = ret[0] time = '{}/{}/{}'.format(year, month.lstrip(), day.lstrip()) return time return None