Python の正規表現の簡単な紹介 (コード付き)
本篇文章给大家带来的内容是关于python中正则表达式的简单介绍(附代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
在python中正则表达式被封装到了re模块,通过引入re模块来使用正则表达式
re模块中有很多正则表达式处理函数,首先用findall函数介绍基本基本字符的含义
元字符有:. \ * + ? ^ $ | {} [] ()
findall函数
遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表
. 匹配任意除换行符"\n"外的字符
import re temp=re.findall("a.c","abcdefagch") print(temp)#['abc', 'agc']
* 匹配前一个字符0或多次
temp=re.findall("a*b","abcaaaaabcdefb") print(temp)#['ab', 'aaaaab', 'b']
+ 匹配前一个字符1次或无限次
temp=re.findall("a+b","abcaaaaabcdefb") print(temp)#['ab', 'aaaaab']
? 匹配前一个字符0次或1次
temp=re.findall("a?b","abcaaaaabcdefb") print(temp)#['ab', 'ab', 'b']
^ 匹配字符串开头。在多行模式中匹配每一行的开头
temp=re.findall("^ab","abcaaaaabcdefb") print(temp)#['ab']
$ 匹配字符串末尾,在多行模式中匹配每一行的末尾
temp=re.findall("ab$","abcaaaaabcdefab") print(temp)#['ab']
| 或。匹配|左右表达式任意一个,从左到右匹配,如果|没有包括在()中,则它的范围是整个正则表达式
temp=re.findall("abc|def","abcdef") print(temp)#['abc', 'def']
{} {m}匹配前一个字符m次,{m,n}匹配前一个字符m至n次,若省略n,则匹配m至无限次
temp=re.findall("a{3}","aabaaacaaaad") print(temp)#['aaa', 'aaa'] temp=re.findall("a{3,5}","aaabaaaabaaaaabaaaaaa") print(temp)#['aaa', 'aaaa', 'aaaaa', 'aaaaa']在获取了3个a后,若下一个还是a,并不会得到aaa,而是算下一个a
[] 字符集。对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出,也可以给出范围,如[abc]或[a-c]。[^abc]表示取反,即非abc,所有特殊字符在字符集中都失去其原有的特殊含义。用\反斜杠转义恢复特殊字符的特殊含义。
temp=re.findall("a[bcd]e","abcdefagch") print(temp)#[]此时bcd为b或c或d temp=re.findall("a[a-z]c","abcdefagch") print(temp)#['abc', 'agc'] temp=re.findall("[^a]","aaaaabcdefagch") print(temp)#['b', 'c', 'd', 'e', 'f', 'g', 'c', 'h'] temp=re.findall("[^ab]","aaaaabcdefagch") print(temp)#['c', 'd', 'e', 'f', 'g', 'c', 'h']a和b都不会被匹配
() 被括起来的表达式将作为分组,从表达式左边开始每遇到一个分组的左括号“(”,编号+1.分组表达式作为一个整体,可以后接数量词。表达式中的|仅在该组中有效。
temp=re.findall("(abc){2}a(123|456)c","abcabca456c") print(temp)#[('abc', '456')] temp=re.findall("(abc){2}a(123|456)c","abcabca456cbbabcabca456c") print(temp)#[('abc', '456'), ('abc', '456')] #这里有()的情况中,findall会将该规则的每个()中匹配到的字符创放到一个元组中
要想看到被完全匹配的内容,我们可以使用一个新的函数search函数
search函数
在字符串内查找模式匹配,只要找到第一个匹配然后返回,如果字符串没有匹配,则返回None
temp=re.search("(abc){2}a(123|456)c","abcabca456c") print(temp)#<re.Match object; span=(0, 11), match='abcabca456c'> print(temp.group())#abcabca456c
\ 转义字符,使后一个字符改变原来的意思
反斜杠后边跟元字符去除特殊功能;(即将特殊字符转义成普通字符)
temp=re.search("a\$","abcabca456ca$") print(temp)#<<re.Match object; span=(11, 13), match='a$'> print(temp.group())#a$
引用序号对应的字组所匹配的字符串。
即下面的\2为前边第二个括号中的内容,2代表第几个,从1开始
a=re.search(r'(abc)(def)gh\2','abcdefghabc abcdefghdef').group() print(a)#abcdefghdef
反斜杠后边跟普通字符实现特殊功能;(即预定义字符)
预定义字符有:\d \D \s \S \w \W \A \Z \b \B
预定义字符在字符集中仍有作用
\d 数字:[0-9]
temp=re.search("a\d+b","aaa234bbb") print(temp.group())#a234b
\D 非数字:[^\d]
\s 匹配任何空白字符:[<空格>\t\r\n\f\v]
temp=re.search("a\s+b","aaa bbb") print(temp.group())#a b
\S 非空白字符:[^\s]
\w 匹配包括下划线在内的任何字字符:[A-Za-z0-9_]
\W 匹配非字母字符,即匹配特殊字符
temp=re.search("\W","$") print(temp.group())#$
\A 仅匹配字符串开头,同^
\Z 仅匹配字符串结尾,同$
\b 匹配\w和\W之间的边界
temp=re.search(r"\bas\b","a as$d") print(temp.group())#$as
\B [^\b]
下面介绍其他的re常用函数
compile函数
编译正则表达式模式,返回一个对象的模式
rule = re.compile("abc\d+\w") str = "aaaabc6def" temp = rule.findall(str) print(temp)#['abc6d']
match函数
在字符串刚开始的位置匹配,和^功能相同
temp=re.match("asd","asdfasd") print(temp.group())#asd
finditer函数
将所有匹配到的字符串以match对象的形式按顺序放到一个迭代器中返回
temp=re.finditer("\d+","as11d22f33a44sd") print(temp)#<callable_iterator object at 0x00000242EEEE9E48> for i in temp: print(i.group()) #11 #22 #33 #44
split函数
用于分割字符串,将分割后的字符串放到一个列表中返回
如果在字符串的首或尾分割,将会出现一个空字符串
temp=re.split("\d+","as11d22f33a44sd55") print(temp)#['as', 'd', 'f', 'a', 'sd', '']
使用字符集分割
如下先以a分割,再将分割后的字符串们以b分割,所以会出现3个空字符串
temp=re.split("[ab]","ab123b456ba789b0") print(temp)#['', '', '123', '456', '', '789', '0']
sub函数
将re匹配到的部分进行替换再返回新的字符串
temp=re.sub("\d+","_","ab123b456ba789b0") print(temp)#ab_b_ba_b_
后边还可以再加一个参数表示替换次数,默认为0表示全替换
subn函数
将re匹配到的部分进行替换再返回一个装有新字符串和替换次数的元组
temp=re.subn("\d+","_","ab123b456ba789b0") print(temp)#('ab_b_ba_b_', 4)
然后讲一下特殊分组
temp=re.search("(?P<number>\d+)(?P<letter>[a-zA-Z])","ab123b456ba789b0") print(temp.group("number"))#123 print(temp.group("letter"))#b
以?P
最后说一下惰性匹配和贪婪匹配
temp=re.search("\d+","123456") print(temp.group())#123456
此时为贪婪匹配,即只要符合就匹配到底
temp=re.search("\d+?","123456") print(temp.group())#1
在后面加一个?变为惰性匹配,即只要匹配成功一个字符就结束匹配
相关推荐:
以上がPython の正規表現の簡単な紹介 (コード付き)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











XMLをPDFに直接変換するアプリケーションは、2つの根本的に異なる形式であるため、見つかりません。 XMLはデータの保存に使用され、PDFはドキュメントを表示するために使用されます。変換を完了するには、PythonやReportLabなどのプログラミング言語とライブラリを使用して、XMLデータを解析してPDFドキュメントを生成できます。

XML構造が柔軟で多様であるため、すべてのXMLファイルをPDFSに変換できるアプリはありません。 XMLのPDFへのコアは、データ構造をページレイアウトに変換することです。これには、XMLの解析とPDFの生成が必要です。一般的な方法には、ElementTreeなどのPythonライブラリを使用してXMLを解析し、ReportLabライブラリを使用してPDFを生成することが含まれます。複雑なXMLの場合、XSLT変換構造を使用する必要がある場合があります。パフォーマンスを最適化するときは、マルチスレッドまたはマルチプロセスの使用を検討し、適切なライブラリを選択します。

XML画像を変換するには、最初にXMLデータ構造を決定し、次に適切なグラフィカルライブラリ(PythonのMatplotlibなど)とメソッドを選択し、データ構造に基づいて視覚化戦略を選択し、データのボリュームと画像形式を検討し、バッチ処理を実行するか、効率的なライブラリを使用して、最終的にPNG、JPEG、またはSVGに応じて保存します。

XMLの美化は、合理的なインデンテーション、ラインブレーク、タグ組織など、本質的に読みやすさを向上させています。原則は、XMLツリーを通過し、レベルに応じてインデントを追加し、テキストを含む空のタグとタグを処理することです。 PythonのXML.ETREE.ELEMENTTREEライブラリは、上記の美化プロセスを実装できる便利なchile_xml()関数を提供します。

単一のアプリケーションで携帯電話でXMLからPDF変換を直接完了することは不可能です。クラウドサービスを使用する必要があります。クラウドサービスは、2つのステップで達成できます。1。XMLをクラウド内のPDFに変換し、2。携帯電話の変換されたPDFファイルにアクセスまたはダウンロードします。

ほとんどのテキストエディターを使用して、XMLファイルを開きます。より直感的なツリーディスプレイが必要な場合は、酸素XMLエディターやXMLSPYなどのXMLエディターを使用できます。プログラムでXMLデータを処理する場合、プログラミング言語(Pythonなど)やXMLライブラリ(XML.ETREE.ELEMENTTREEなど)を使用して解析する必要があります。

Mobile XMLからPDFへの速度は、次の要因に依存します。XML構造の複雑さです。モバイルハードウェア構成変換方法(ライブラリ、アルゴリズム)コードの品質最適化方法(効率的なライブラリ、アルゴリズムの最適化、キャッシュデータ、およびマルチスレッドの利用)。全体として、絶対的な答えはなく、特定の状況に従って最適化する必要があります。

携帯電話でXMLをPDFに直接変換するのは簡単ではありませんが、クラウドサービスの助けを借りて実現できます。軽量モバイルアプリを使用してXMLファイルをアップロードし、生成されたPDFを受信し、クラウドAPIで変換することをお勧めします。クラウドAPIはサーバーレスコンピューティングサービスを使用し、適切なプラットフォームを選択することが重要です。 XMLの解析とPDF生成を処理する際には、複雑さ、エラー処理、セキュリティ、および最適化戦略を考慮する必要があります。プロセス全体では、フロントエンドアプリとバックエンドAPIが連携する必要があり、さまざまなテクノロジーをある程度理解する必要があります。
