您好,欢迎访问代理记账网站
移动应用 微信公众号 联系我们

咨询热线 -

电话 15988168888

联系客服
  • 价格透明
  • 信息保密
  • 进度掌控
  • 售后无忧

16正则表达式

正则表达式

# 正则表达式:解决字符串问题的工具(让复杂的字符串问题变成一个简单的工具)

# 问题:验证输入手机号是否合法

# abc - 不是
# 123 - 不是
# 12345678 - 不合法
# 13440768765 - 合法
# 13456788766655 - 不合法
from re import fullmatch,findall

def phone_nums(tel_no:str):
    return not fullmatch(r'1[3-9]/d{9}',tel_no) !=None

tel = '13440678728'
print(phone_nums(tel))

1 .re模块

re模块是python用来支持正则表达式的一个模块

re模块中提供了各种和正则相关的函数:'fullmatch,search,findall,match,split,sub等等)

fullmathch(正则表达式,字符串) - 判断整个字符串是否完全符合正则表达式描述的规则。如果不符合返回值是None

python中提供正则表达式的方式:r’正则表达式’

js中提供正则表达式的方式:/正则表达式/

from re import fullmatch

# 匹配类符号 - 一个正则符号表示一类字符
# 匹配类符号在正则中的作用:用来要求字符串中某个位置必须是什么样的字符
# 1) 普通符号 - 在正则表达式中表示这个符号本身,对应字符串中的字符的要求就是符号本身

# 要求字符串:总共有三个字符,第一个是'a',第二个是'b',第三个是'c'

result = fullmatch(r'abc', 'abc')

print(result)  # <re.Match object; span=(0, 3), match='abc'>

result = fullmatch(r'abc', 'bac')
print(result)  # None

#2) . - 匹配任意一个字符
#要求字符串:总共三个字符,第一个是'a',最后一个是'c',中间可以是任意符号
result = fullmatch(r'a.c','a&c')
print(result)  # <re.Match object; span=(0, 3), match='a&c'>

# 3)\d - 匹配一个任意数字
result = fullmatch(r'a\dc','a2c')

print(result)

result = fullmatch(r'\d\d\d','823')
print(result)

#4)\s - 匹配任意一个空白字符
# 空白字符包括:空格 \n \t
result = fullmatch(r'\d\s\d','1 2')
print(result)

# 5)\w - 匹配任意一个数字,字母或者下划线或者中文
result = fullmatch(r'a\wb','a3b')
print(result)

# 6)\大写字母 - 与相应的小写字母功能相反
#/D - 匹配任意一个非数字字符
#/S - 匹配任意一个非空白字符
#  等等......

7)[字符集] - 匹配字符集中任意一个元素字符

注意::一个[]只能匹配一个字符

[多个普通符号] - 例如[ab123],在a,b,1,2,3五个符号中任意匹配一个
[包含/开头的特色符号] - 例如:[mn/d],[m/dn],[/dmn] 要求是m,n,或者任意一个数字
[字符1-字符2] - 例如:[a-z],要求任意一个小写字母,[a-zA-Z]要求任意一个字母 ,[2-9a-z] 要求2到9或者任意一个小写字母
注意:[]中如果-不在两个字符中间,就不能表达谁到谁,就是一个普通符号 [az-]
from re import fullmatch

result = fullmatch(r'1[xyz]2','1x2')
print(result)

result = fullmatch(r'a[mn\d]b','a9b')
print(result)

result = fullmatch(r'1[a-z]2','1g2')
print(result)

result = fullmatch(r'a[\u4e00-\u9fa5]b','a以b')
print(result)

#8) [^字符集] - 匹配不在字符集中的任意一个字符

result = fullmatch(r'1[^xyz]2','1u2')
print(result)

result = fullmatch('r1[^2-9]2','1q2')
print(result)

2.匹配次数

1:

from re import fullmatch,search

# 1. * - 匹配0次或者多次(任意次数)

'''
a* - a出现任意次数
\d* - 任意多个数字
'''
result = fullmatch(r'a*b','aaaaaab')
print(result)

result = fullmatch(r'\d*b','222b')
print(result)

result = fullmatch(r'[A-Z]*b','DFFGFGb')
print(result)


# 2. + - 匹配1或者多次(至少1次)
result = fullmatch(r'a+b','aaaaab')
print(result)

# 3. ? - 0次或者1次
result = fullmatch(r'[+-]?123', '-123')
print(result)

# 4.{}
'''
{N} - N次
{M,N} - M到N次
{M,} - 至少M次
{,N} - 最多N次


'''

result = fullmatch(r'\d{3}abc','567abc')
print(result)

result = fullmatch(r'\d{2,5}abc','2245abc')
print(result)


2.贪婪和非贪婪

在匹配次数不确定的时候,匹配模式分为贪婪和非贪婪两种,默认是贪婪的
匹配次数不确定 *,-,+,{M,N},{M,},{,N}
贪婪和非贪婪:在次数不确定的情况下,对应的字符串在不同次数下有多种匹配结果,贪婪取最多次数对应的结果(前提是匹配成功有多种情况)
非贪婪取最少次数对应的结果
from re import fullmatch,search
re_str = r'\d+'
result = fullmatch(r'\d+?','26373')

print(result)

# search(正则表达式,字符串) - 在字符串中查找第一个满足正则表达式的字符串
result = search(r'\d+?','对方对方的26373')
print(result)

result = search(r'a.*b','速度大幅度addbsddfb对方的b是的')
print(result)

result = search(r'a.*?b','速度大幅度addbsddfb对方的b是的')
print(result)

3.分支和分组

1.分组 - ()

分组就是在正则中用括号将正则中部分内容括起来形成一个分组
1)整体操作

2) 重复

#在正则中:\N可以重复 \N所在的位置前面的第N个分组匹配到的内容
‘mn34ff45hg67hg45’

3) 捕获 - 获取正则匹配结果中的部分内容

from re import fullmatch,findall

result = fullmatch(r'([a-zA-Z]{2}\d\d){3}','nm35hg56hg87')
print(result)

# 匹配:'23abc23','65abc65','34abc' - 成功
#      '23abc43' 失败

result = fullmatch(r'(\d\d)abc\1','23abc23')
print(result)

result =fullmatch(r'(\d{3})([a-z]{2})-\2\1','678mn-mn678')
print(result)

result = fullmatch(r'(((\d{2})[A-Z]{3})[a-z]{2})-\2','12QWEqw-12QWE')
print(result)


result = findall(r'[a-z](\d\d)','爱喝酒2空间数据a789,明明a45对方的b2341==')
print(result)  # ['78', '45', '23']

result = findall(r'[a-z]\d\d','爱喝酒2空间数据a789,明明a45对方的b2341==')
print(result)  # ['a78', 'a45', 'b23']

2.分支

正则1/正则2 - 先用正则1进行匹配如果匹配成功就直接成功,如果匹配失败在用正则2进行匹配,如果匹配成功就成功,失败就失败
abc后面是两个任意数字或者是两个任意大写字母,‘abc34’ ‘abcKJ’
from re import fullmatch,findall

result = fullmatch(r'abc\d\d|abc[A-Z]{2}','abc34')
print(result)

result = fullmatch(r'abc(\d\d|[A-Z]{2})','abc12')
print(result)

4.检查类字符号和转移符号

1.检查类符号

检测类符号不是匹配符号,不会要求某个位置必须是什么样的字符,而是用检测某个位置是否符合相关要求
\b - 检测是否是单词边界
单词边界 - 凡是可以用两个单词区分的符号,例如:空白字符,标点符号,字符串开头,字符串结尾
from re import fullmatch,findall

result = findall(r'\d+','52数据12543dsd,34发4545,的风格 234sdf,234,似懂非懂的是34sf')
print(result) # ['52', '12543', '34', '4545', '234', '234', '34']

result = findall(r'\b\d+','52数据12543dsd,34发4545,的风格 234sdf,234,似懂非懂的是34sf')
print(result)  # ['52', '34', '234', '234']

result = findall(r'\d+\b','52数据12543dsd,34发4545,的风格 234sdf,234,似懂非懂的是34sf')
print(result) #  ['4545', '234']

result = findall(r'\b\d+\b','52数据12543dsd,34发4545,的风格 234sdf,234,似懂非懂的是34sf')
print(result) # ['234']


# \B - 检测是否是非单词边界

# 3)^  -  检测是否是字符串开头([]外面)

# 4)$  -  检测是否是字符串结尾

2.转移字符

正则中的转移符号是指在本身就具备特殊功能的符号前加\,让它本身功能消失变成一个普通符号
from re import fullmatch,findall

#写一个正则匹配一个小数
result = fullmatch(r'\d+\.\d+','2.3')
print(result)

#'23+78'
result = fullmatch(r'\d\d\+\d\d','23+78')
print(result)

# '(护具)'
result = fullmatch(r'\([\u4e00-\u9f5a]{2}\)','(护具)')
print(result)

#'\dabc'

result = fullmatch(r'\\dabc','\dabc')
print(result)

# '-abc','mabc','nabc'

result = fullmatch(r'[\^a\-z]abc','-abc')
print(result)

# 补充:独立存在有特殊意义的符号,放到[]中特殊功能会直接消失变成一个普通符号,例如:+,-,*,?,. ,....)等

result = fullmatch(r'[.+*?$]ab[.]c','+ab.c')
print(result)

5 .re模块

import re

1.常用函数
1)re.fullmatch(正则,字符串) - 判断整个字符串是否能够和正则表达式匹配,如果匹配成功返回匹配对象,匹配失败返回None
2)re.match(正则,字符串) - 匹配字符串开头,如果匹配成功返回匹配对象,匹配失败返回None
3)re.search(正则,字符串) - 匹配字符串中第一个满足正则的字符串,如果匹配成功返回匹配对象,匹配失败返回None
4)re.findall(正则,字符串) - 获取字符串中所有满足正则的字符串,返回值是列表,列表中元素是匹配到的字符串
5)re.finditer(正则,字符串) - 获取子字符串中所有满足正则的字串,返回一个迭代器,迭代器中元素是匹配对象
6)re.split(正则,字符串) - 将字符串所有满足正则的子串作为切割点对字符串进行切割,返回值是列表,列表中的元素是字符串
7)re.sub(正则,字符串1,字符串2) - 将字符串2中所有满足正则的子串全部替换成字符串1
import re

# 1)re.fullmatch(正则,字符串)
result = re.fullmatch(r'\d{3}','123')
print(result)

# 2) re.match(正则,字符串)

result = re.match(r'\d{3}','123dfdf')
print(result)

# 3) re.search(正则,字符串)
result = re.search(r'\d{3}','sdd345fbfd351')
print(result)

# 4) re.findall(正则,字符串)

result = re.findall(r'[a-z](\d{3})','安身的地方234苟富贵m356打发打发343fgf3343')
print(result)  #  ['356', '334']


result = re.findall(r'([a-z])(\d{3})','安身的地方234苟富贵m356打发打发343fgf3343')
print(result)  # [('m', '356'), ('f', '334')]

# 5)re.finditer(正则,字符串)
result = re.finditer(r'\d{3}','安身的地方234苟富贵m356打发打发343fgf3343')
print(list(result))

result = re.finditer(r'([a-z])(\d{3})','安身的地方234苟富贵m356打发打发343fgf3343')
print(list(result))

# 6) re.split(正则,字符串)
#    re.split(正则,字符串,N)
result = re.split(r'\d{3}','安身的地方234苟富贵m356打发打发343fgf3343')
print(list(result))  # ['安身的地方', '苟富贵m', '打发打发', 'fgf', '3']

result = re.split(r'[abc]','反对反对a地方法规b的官方公告c的风格风格')
print(result)

# 7)re.sub(正则,字符串1,字符串2)
#   re.sub(正则,字符串1,字符串2,N)
x = '反对反对a地方法规b的官方公告c的风格风格'
# 将a,b,c都替换成++


result = re.sub(r'[abc]','++',x)
print(result)

result = re.sub(r'\d+','0','安身的地方234苟富贵m356打发打发343fgf3343')
print(result) # 安身的地方0苟富贵m0打发打发0fgf0

result = re.sub(r'\d+','0','安身的地方234苟富贵m356打发打发343fgf3343',2)
print(result) # 安身的地方0苟富贵m0打发打发343fgf3343

2.匹配对象

import re

result = re.search(r'([a-z]{2})-(\d{3})','才风格的ag-345带段fd-351')
print(result) # <re.Match object; span=(4, 10), match='ag-345'>
# 1)获取匹配结果对应的字符串
# a. 获取整个正则匹配到的字符串:匹配对象.group()

r1 = result.group()
print(r1) # ag-345

# b.获取某个分组匹配到的结果:匹配对象.group(N)
r2 = result.group(1)
print(r2)

# 2) 获取匹配结果在原字符串中的位置
r3 = result.span()
print(r3)

# b 获取某个分组匹配到的结果:匹配对象.span(N)
r4 = result.span(1)
print(r4)

3.参数

1)单行匹配和多行匹配
多行匹配的时候,.不能和\n进行匹配 默认:flags = re.M、(?m)
单行匹配的时候,.可以和\n进行匹配 flags = re.S、(?s)
import re

# result = re.fullmatch(r'a.c','a\nc')
# print(result)

# 设置单行匹配
result = re.fullmatch(r'a.c','a\nc',flags=re.S)
print(result)


result = re.fullmatch(r'(?s)a.c','a\nc')
print(result)
2) 忽略大小写
默认情况下大写字母和小写字母是不能匹配的,忽略大小写后大写字母就可以和对应的小写字母匹配方法: flages = re.I (?i)
import re

result = re.fullmatch(r'abc','aBc',flags=re.I)
print(result)


result = re.fullmatch(r'(?i)12[a-z]','12B')
print(result)


# 3) 既忽略大小写又要单行匹配
# 方法:flages = re.I|re.s   (?si)
result = re.fullmatch(r'abc.12','aBC\n12',flags=re.S|re.I)
print(result)

result = re.fullmatch(r'(?si)abc.12','aBC\n12')
print(result)

利用正则表达式完成下面的操作:

一、不定项选择题

  1. 能够完全匹配字符串"(010)-62661617"和字符串"01062661617"的正则表达式包括( A B D)

    A. r"\(?\d{3}\)?-?\d{8}"
    B. r"[0-9()-]+"
    C. r"[0-9(-)]*\d*"
    D.r"[(]?\d*[)-]*\d*"

  2. 能够完全匹配字符串"back"和"back-end"的正则表达式包括( A B C D)
    A. r'\w{4}-\w{3}|\w{4}'
    B. r'\w{4}|\w{4}-\w{3}'
    C.r'\S+-\S+|\S+'
    D. r'\w*\b-\b\w*|\w*'

  3. 能够完全匹配字符串"go go"和"kitty kitty",但不能完全匹配“go kitty”的正则表达式包括(A D )
    A.r '\b(\w+)\b\s+\1\b'
    B. r'\w{2,5}\s*\1'
    C. r'(\S+) \s+\1'
    D. r'(\S{2,5})\s{1,}\1'

  4. 能够在字符串中匹配"aab",而不能匹配"aaab"和"aaaab"的正则表达式包括(B C )
    A. r"a*?b"
    B. r"a{,2}b"
    C. r"aa??b"
    D. r"aaa??b"

二、编程题

1.用户名匹配

​ 要求: 1.用户名只能包含数字 字母 下划线

​ 2.不能以数字开头

​ 3.⻓度在 6 到 16 位范围内

import re

names = input('请输入用户名:')

x = re.fullmatch(r'[a-zA-Z_][\da-zA-Z_]{5,15}',names)
print(x)
  1. 密码匹配

​ 要求: 1.不能包含!@#¥%^&*这些特殊符号

​ 2.必须以字母开头

​ 3.⻓度在 6 到 12 位范围内

import re

names = input('请输入密码:')

x = re.fullmatch(r'(?i)[a-z][^!@#¥%^&*]{5,11}',names)
print(x)
  1. ipv4 格式的 ip 地址匹配
    提示: IP地址的范围是 0.0.0.0 - 255.255.255.255
import re

y = input('请输入ipv4地址:')

x = re.fullmatch(r'((\d|[1-9]\d|[1]\d\d|[2]([0-4]\d|[5][0-5]))\.){3}(\d|[1-9]\d|[1]\d\d|[2]([0-4]\d|[5][0-5]))',y)
print(x)
  1. 提取用户输入数据中的数值 (数值包括正负数 还包括整数和小数在内) 并求和
例如:“-3.14good87nice19bye” =====> -3.14 + 87 + 19 = 102.86
import re

def nums():
    nums1 = 0
    y = '-3.14good87nice19bye'
    list1 = re.findall(r'\d+|-\d+\.\d+|\d+\.\d+|-\d+',y)
    for x in list1:
        nums1 += float(x)

    return nums1

print(nums())
  1. 验证输入内容只能是汉字

    import re
    
    y = input('请输入:')
    x = re.fullmatch(r'[\u4e00-\u9fa5]',y)
    print(x)
    
  2. 匹配整数或者小数(包括正数和负数)

    import re
    
    y = input('请输入:')
    x = re.fullmatch(r'\d+|-\d+\.\d+|\d+\.\d+|-\d+',y)
    print(x)
    
  3. 验证输入用户名和QQ号是否有效并给出对应的提示信息

    要求:
    用户名必须由字母、数字或下划线构成且长度在6~20个字符之间
    QQ号是5~12的数字且首位不能为0

    import re
    
    x = input('请输入用户名:')
    y = input('请输入qq号')
    result = re.fullmatch(r'[\da-zA-Z_]{6,20}',x)
    result1 = re.fullmatch(r'[1-9]\d{4,11}',y)
    # 
    
  4. 拆分长字符串:将一首诗的中的每一句话分别取出来

    ​ poem = ‘窗前明月光,疑是地上霜。举头望明月,低头思故乡。’

import re

poem = '窗前明月光,疑是地上霜。举头望明月,低头思故乡。'
x = re.split(r'[,。]',poem)
for q in x:
    print(q)


分享:

低价透明

统一报价,无隐形消费

金牌服务

一对一专属顾问7*24小时金牌服务

信息保密

个人信息安全有保障

售后无忧

服务出问题客服经理全程跟进