正则表达式中 Java 的 \w 和 \b 的 Unicode 等效项是什么？-java教程-PHP中文网

首页

Java

java教程

正则表达式中 Java 的 \w 和 \b 的 Unicode 等效项是什么？

DDD

Dec 13, 2024 pm 02:55 PM

What are the Unicode-aware equivalents for Java's w and b in regular expressions?

Java 正则表达式中 w 和 b 的 Unicode 等效项？

与其他表达式相比，Java 正则表达式的字符类简写（w 和 b）有限现代正则表达式实现。在Java中，w仅匹配[A-Za-z0-9_]，限制了单词匹配能力。此外，b 的词边界语义偏离了 w 和 Unicode 的定义。

Unicode 感知等效项

幸运的是，已经开发了自定义 Unicode 感知等效项来克服这些限制。以下是替换内容：

\s: [\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]
\S: [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]

\v: [\u000A-\u000D\u0085\u2028\u2029]
\V: [^\u000A-\u000D\u0085\u2028\u2029]

\h: [\u0009\u0020\u00A0\u1680\u180E\u2000-\u200A\u202F\u205F\u3000]
\H: [^\u0009\u0020\u00A0\u1680\u180E\u2000-\u200A\u202F\u205F\u3000]

\w: [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics">&amp;&amp;\p{So}]]
\W: [^\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics">&amp;&amp;\p{So}]]

\b: (?:(?<=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics">&amp;&amp;\p{So}]])(?![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics">&amp;&amp;\p{So}]])|(?<![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics">&amp;&amp;\p{So}]])(?=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics">&amp;&amp;\p{So}]]))
\B: (?:(?<=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics">&amp;&amp;\p{So}]])(?=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics">&amp;&amp;\p{So}]])|(?<![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics">&amp;&amp;\p{So}]])(?![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics">&amp;&amp;\p{So}]]))

\d: \p{Nd}
\D: \P{Nd}

\R: (?:(?>\u000D\u000A)|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029])
\X: (?>\PM\pM*)

登录后复制

理解边界（b 和 B）

边界匹配单词字符转换为非单词字符的位置，反之亦然。边界定义为：

IF follows word
THEN doesn't precede word
ELSIF doesn't follow word
THEN does precede word

登录后复制

转换为正则表达式语法：

(?:(?<=\w)(?!\w)|(?<!\w)(?=\w))

登录后复制

同样，非边界 (B) 等效项为：

(?:(?<=\w)(?=\w)|(?<!\w)(?!\w))

登录后复制

在 Java 中加入 Unicode 支持

至将这些 Unicode 等效项合并到 Java 正则表达式中，您可以在编译之前使用字符串重写函数来转换模式。以下是使用名为 rewrite 的自定义函数的示例：

String rewrittenPattern = rewrite(originalPattern);
Pattern compiledPattern = Pattern.compile(rewrittenPattern);

登录后复制

以上是正则表达式中 Java 的 \w 和 \b 的 Unicode 等效项是什么？的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1667

CakePHP 教程

1426

Laravel 教程

1328

PHP教程

1273

C# 教程

1255

显示更多

Related knowledge

公司安全软件导致应用无法运行？如何排查和解决？ Apr 19, 2025 pm 04:51 PM

公司安全软件导致部分应用无法正常运行的排查与解决方法许多公司为了保障内部网络安全，会部署安全软件。...

如何将姓名转换为数字以实现排序并保持群组中的一致性？ Apr 19, 2025 pm 11:30 PM

将姓名转换为数字以实现排序的解决方案在许多应用场景中，用户可能需要在群组中进行排序，尤其是在一个用...

如何使用MapStruct简化系统对接中的字段映射问题？ Apr 19, 2025 pm 06:21 PM

系统对接中的字段映射处理在进行系统对接时，常常会遇到一个棘手的问题：如何将A系统的接口字段有效地映�...

IntelliJ IDEA是如何在不输出日志的情况下识别Spring Boot项目的端口号的？ Apr 19, 2025 pm 11:45 PM

在使用IntelliJIDEAUltimate版本启动Spring...

如何优雅地获取实体类变量名构建数据库查询条件？ Apr 19, 2025 pm 11:42 PM

在使用MyBatis-Plus或其他ORM框架进行数据库操作时，经常需要根据实体类的属性名构造查询条件。如果每次都手动...

Java对象如何安全地转换为数组？ Apr 19, 2025 pm 11:33 PM

Java对象与数组的转换：深入探讨强制类型转换的风险与正确方法很多Java初学者会遇到将一个对象转换成数组的�...

如何利用Redis缓存方案高效实现产品排行榜列表的需求？ Apr 19, 2025 pm 11:36 PM

Redis缓存方案如何实现产品排行榜列表的需求？在开发过程中，我们常常需要处理排行榜的需求，例如展示一个�...

电商平台SKU和SPU数据库设计：如何兼顾用户自定义属性和无属性商品？ Apr 19, 2025 pm 11:27 PM

电商平台SKU和SPU表设计详解本文将探讨电商平台中SKU和SPU的数据库设计问题，特别是如何处理用户自定义销售属...

See all articles

正则表达式中 Java 的 \w 和 \b 的 Unicode 等效项是什么？

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题