如何使用正则表达式捕获多行文本块?

Patricia Arquette
发布: 2024-10-25 06:05:02
原创
786 人浏览过

How to Capture Multiline Text Blocks with Regular Expressions?

匹配多行文本块的正则表达式

匹配跨多行的文本可能会给正则表达式构造带来挑战。考虑以下示例文本:

some Varying TEXT

DSJFKDAFJKDAFJDSAKFJADSFLKDLAFKDSAF
[more of the above, ending with a newline]
[yep, there is a variable number of lines here]

(repeat the above a few hundred times)
登录后复制

目标是捕获两个组成部分:“some Varying TEXT”部分和所有后续大写文本行,不包括空行。

不正确的方法:

解决此问题的一些不正确方法包括:

  • 使用 ^ 和 $ 锚点来匹配换行符。在多行模式下,^ 匹配换行符后面的位置,$ 匹配换行符前面的位置。
  • 使用 DOTALL 修饰符来匹配所有内容,这是不必要的,因为点 (.) 匹配除换行符之外的所有内容。

解决方案:

以下正则表达式正确捕获所需的组件:

^(.+)\n((?:\n.+)+)
登录后复制

以下是其组件的细分:

  • ^ 匹配行的开头。
  • (. ) 将“some Varying TEXT”部分捕获到组 1 中。
  • n 匹配换行符。
  • ( (?:n. ) ) 将所有后续的大写文本行捕获到组 2 中。 ?: 非捕获组构造可防止这些行被捕获为单独的组。
  • 重复运算符确保至少有一个存在一行大写文本。

用法:

要在 Python 中使用此正则表达式,您可以使用以下代码:

<code class="python">import re

pattern = re.compile(r"^(.+)\n((?:\n.+)+)", re.MULTILINE)</code>
登录后复制

然后您可以使用 match() 方法在字符串中查找匹配项:

<code class="python">match = pattern.match(text)
if match:
    text1 = match.group(1)
    text2 = match.group(2)</code>
登录后复制

以上是如何使用正则表达式捕获多行文本块?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责声明 Sitemap
PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!