Maison > Java > javaDidacticiel > Comment puis-je réécrire les raccourcis \w, \b et autres Regex de Java pour une compatibilité Unicode totale ?

Comment puis-je réécrire les raccourcis \w, \b et autres Regex de Java pour une compatibilité Unicode totale ?

Mary-Kate Olsen
Libérer: 2024-12-16 19:06:16
original
704 Les gens l'ont consulté

How Can I Rewrite Java's w, b, and Other Regex Shortcuts for Full Unicode Compatibility?

Réécriture de w et b dans les expressions régulières Java pour la compatibilité Unicode

Les raccourcis d'expressions régulières w et b de Java ont une prise en charge Unicode limitée. Pour résoudre ce problème, vous pouvez réécrire ces raccourcis à l'aide des définitions compatibles Unicode suivantes :

\w (words) => [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]
\W (non-words) => [^\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]

\b (word boundary) => (?:(?<=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&amp;&amp;\p{So}]])(?![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&amp;&amp;\p{So}]])|(?<![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&amp;&amp;\p{So}]])(?=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&amp;&amp;\p{So}]]))
\B (non-word boundary) => (?:(?<=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&amp;&amp;\p{So}]])(?=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&amp;&amp;\p{So}]])|(?<![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&amp;&amp;\p{So}]])(?![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&amp;&amp;\p{So}]]))
Copier après la connexion

Autre expression rationnelle compatible Unicode Raccourcis :


  1. u0009-u000Du0020u0085u00A0u1680u180Eu2000-u200Au2028u2029u202Fu205Fu3000
  2. u000A-u000Du0085u2028u2029
  3. u0009u0020u00A0u1680u180Eu2000u2001-u200Au202Fu205Fu3000

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
Regexp ShortcutUnicode-Aware Definition
s (whitespace)[u0009-u000Du0020u0085u00A0u1680u180Eu2000-u200Au2028u2029u202Fu205Fu3000]
S (non-whitespace)1
v (vertical whitespace)[u000A-u000Du0085u2028u2029]
V (non-vertical whitespace)2
h (horizontal whitespace)[u0009u0020u00A0u1680u180Eu2000-u200Au202Fu205Fu3000]
H (non-horizontal whitespace)3
d (digits)p{Nd}
D (non-digits)P{Nd}
R (line break)(?:(?>u000Du000A)[u000Au000Bu000Cu000Du0085u2028u2029])
X (extended grapheme cluster) (?>PMpM*)