Maison > développement back-end > Tutoriel Python > Comment capturer des blocs de texte multilignes avec des expressions régulières ?

Comment capturer des blocs de texte multilignes avec des expressions régulières ?

Patricia Arquette
Libérer: 2024-10-25 06:05:02
original
892 Les gens l'ont consulté

How to Capture Multiline Text Blocks with Regular Expressions?

Expression régulière pour faire correspondre des blocs de texte multilignes

La correspondance de texte qui s'étend sur plusieurs lignes peut présenter des défis dans la construction d'expressions régulières. Considérons l'exemple de texte suivant :

some Varying TEXT

DSJFKDAFJKDAFJDSAKFJADSFLKDLAFKDSAF
[more of the above, ending with a newline]
[yep, there is a variable number of lines here]

(repeat the above a few hundred times)
Copier après la connexion

L'objectif est de capturer deux composants : la partie « du TEXTE variable » et toutes les lignes suivantes de texte en majuscule, à l'exclusion de la ligne vide.

Approches incorrectes :

Certaines approches incorrectes pour résoudre ce problème incluent :

  • Utilisation des ancres ^ et $ pour faire correspondre les sauts de ligne. En mode multiligne, ^ correspond aux positions suivant les nouvelles lignes et $ correspond aux positions précédant les nouvelles lignes.
  • Utilisation du modificateur DOTALL pour tout faire correspondre, ce qui est inutile puisque le point (.) correspond à tout sauf les nouvelles lignes.

Solution :

L'expression régulière suivante capture correctement les composants souhaités :

^(.+)\n((?:\n.+)+)
Copier après la connexion

Voici une répartition de ses composants :

  • ^ correspond au début de la ligne.
  • (. ) capture la partie "some Varying TEXT" dans le groupe 1.
  • n correspond à un caractère de nouvelle ligne.
  • ( (?:n. ) ) capture toutes les lignes suivantes de texte en majuscules dans le groupe 2. La construction de groupe ?: sans capture empêche ces lignes d'être capturées en tant que groupes individuels.
  • L'opérateur de répétition garantit qu'au moins un une ligne de texte en majuscule est présente.

Utilisation :

Pour utiliser cette expression régulière en Python, vous pouvez utiliser le code suivant :

<code class="python">import re

pattern = re.compile(r"^(.+)\n((?:\n.+)+)", re.MULTILINE)</code>
Copier après la connexion

Vous pouvez ensuite utiliser la méthode match() pour rechercher des correspondances dans une chaîne :

<code class="python">match = pattern.match(text)
if match:
    text1 = match.group(1)
    text2 = match.group(2)</code>
Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal