Java で URL からドメイン名を確実に抽出するにはどうすればよいですか?-＆＃＆チュートリアル-php.cn

Java で URL からドメイン名を確実に抽出するにはどうすればよいですか?

Susan Sarandon

リリース： 2024-11-02 01:52:30

オリジナル

1028 人が閲覧しました

How Can You Reliably Extract Domain Names from URLs in Java?

URL からのドメイン名の抽出

URL が与えられた場合、ドメイン名を抽出することは、Web 開発およびデータ処理における一般的なタスクです。ただし、URL 構文の複雑さと潜在的なエッジケースにより、これは困難な場合があります。

この説明では、URL からドメイン名を抽出し、潜在的な落とし穴やエッジケースに対処する Java ソリューションを提供します。

改良された Java ソリューション

提供されたソリューションは、URL の解析に java.net.URL の代わりに java.net.URI を使用します。

<code class="java">public static String getDomainName(String url) throws URISyntaxException {
    URI uri = new URI(url);
    String domain = uri.getHost();
    return domain.startsWith("www.") ? domain.substring(4) : domain;
}</code>

ログイン後にコピー

このアプローチにより、java.net に関するいくつかの問題が回避されます。 .URL (サービス拒否攻撃に対する脆弱性や相対 URL のサポートの欠如など)。

エッジケースの処理

元のソリューションは、次のようないくつかのエッジケースで失敗します。

相対 URL: スキームのない URL (例: "http://google.com")。
大文字と小文字を区別しないプロトコル:プロトコルが小文字ではない URL (例: "HTTP://example.com")。
プロトコル相対 URL: 「//」で始まるスキームのない URL。
「www」パスコンポーネントを含む相対 URL: 「www」で始まる相対パスを持つ URL。
「www」で始まるドメイン名「www.」は除く: 「www」の前に先頭文字があるドメイン名の URL。

正規表現ソリューション

複雑で無効な可能性のある形式の URL の場合、 RFC 3986 の付録 B に基づいた正規表現を使用できます。ただし、このアプローチはより複雑で、すべてのエッジケースを正しく処理できない可能性があります。

結論

URL からドメイン名を抽出するには注意が必要ですURL 構文と潜在的なエッジケースを考慮します。提供される Java ソリューションは、これらの問題の多くに対処し、信頼性の高いドメイン名の抽出を保証します。より複雑な URL または無効な入力を処理する場合は、正規表現ベースのパーサーが必要になる場合があります。

以上がJava で URL からドメイン名を確実に抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。