如何用Java准确地从URL中提取域名？-java教程-PHP中文网

如何用Java准确地从URL中提取域名？

Mary-Kate Olsen

发布： 2024-10-31 22:00:03

原创

742 人浏览过

How to Accurately Extract Domain Names from URLs in Java?

从 URL 中提取域名

从 URL 中提取域名的任务经常出现。本文讨论了此任务的常见 Java 实现，并探索了提高准确性和处理潜在边缘情况的替代方法。

初始实现

提供的 Java 代码从规范化开始如果需要，可以在 URL 前面加上“http://”。然后，它使用 java.net.URL 解析 URL 以获取主机字符串。最后，如果主机以“www”开头，则为“www”之后的子字符串。作为域名返回。

替代方法

但是，这种方法有局限性：

它无法处理某些边缘情况，例如路径以“http”或“www”开头的相对 URL。
它假设协议始终为小写，这不是一个有效的假设。
它在执行期间执行不必要的 DNS 查找。 URL 相等性检查，这可能导致拒绝服务攻击。

改进的实现

要解决这些问题，我们建议使用 java.net.URI网址解析。 URI 提供了更健壮和可靠的方法：

<code class="java">public static String getDomainName(String url) throws URISyntaxException {
    URI uri = new URI(url);
    String domain = uri.getHost();
    return domain.startsWith("www.") ? domain.substring(4) : domain;
}</code>

登录后复制

此代码将 URL 转换为 URI，获取主机字符串，并删除“www”。前缀（如果存在）。

其他注意事项

即使改进了实现，仍然可能存在一些需要注意的边缘情况。 RFC 3986 附录 B 提供了一个正则表达式，可以处理更复杂的 URI 解析场景。

边缘情况

以下是初始实现可能失败的一些额外边缘情况处理：

路径或主机中带有多个斜杠的 URL
带有编码字符的 URL
带有查询字符串或片段标识符的 URL
解析为非 ASCII 域名的 URL

总体而言，使用 java.net.URI 进行 URL 解析提供了一种更全面、更准确的方法来从 URL 中提取域名，特别是在处理复杂或潜在的情况时无效网址。

以上是如何用Java准确地从URL中提取域名？的详细内容。更多信息请关注PHP中文网其他相关文章！