XML データクエリテクノロジは、今日の注目の研究テーマになっています。-XML/RSS チュートリアル-php.cn

ホームページ

バックエンド開発

XML/RSS チュートリアル

XML データクエリテクノロジは、今日の注目の研究テーマになっています。

黄舟

Feb 13, 2017 pm 03:49 PM

XML (Extensible Markup Language) は、インターネットの急速な発展、特に電子商取引、Web サービス、その他のアプリケーションの普及に伴い、XML タイプのデータが Web アプリケーションでのデータ表現とデータ交換の標準になりました。現在主流のデータ形式。したがって、XML データ管理テクノロジ、特に XML データクエリテクノロジが現在の研究のホットスポットになっています。

リレーショナルデータと比較すると、XML にはさまざまな利点がありますが、最大の欠点はその効率性です。リレーショナルデータファイルでは、データフィールド名は 1 回だけ出現する必要があるのに対し、XML データファイルでは要素名が繰り返し出現するため、クエリの効率に確実に影響します。 XML のクエリ効率をできるだけ向上させるためには、XML 型に対するインデックス機能を提供する必要があります。

World Wide Web Consortium は、2007 年 1 月 23 日に XPath2.0 と XQuery1.0 を推奨標準として特定し、さまざまなクエリ言語間の以前の競争に終止符を打ちました。この標準に基づいて、従来のメーカーに加えて、さまざまな科学研究機関が、さまざまなストレージモデル、さまざまなクエリアルゴリズム、および最適化手法を使用した XPath および XQuery (文献には十数以上が記載されています) の実装を提案しています。これに関連して、Dameng Database Company も独自の開発戦略に基づいて独自の XML クエリエンジンモデルを提案しており、現在、Dameng の XML クエリエンジンは鋭意開発中であり、XML データに対する効果的なインデックスの確立は XML に影響を与える重要な要素です。データクエリのパフォーマンス。既存のデータベース製品のインデックス技術の詳細な分析に基づいて、Dameng XML クエリエンジンが最適なパフォーマンスを達成できるように、より合理的なインデックス構造が設計されています。

XML インデックス技術の紹介

現在、XML に関する研究は主に 2 つの側面に分かれています。 1 つは、XML などの半構造化データの保存、クエリ、管理のためのネイティブデータベースです。データとメタデータは完全に XML 構造で表現され、その基礎となるデータストレージ形式 (オブジェクトモデル、リレーショナルモデルなど) とは何の関係もありません。、など）。もう 1 つは、リレーショナルデータベースの成熟したテクノロジを使用して XML データを処理する、リレーショナルデータベースとの間の相互変換です。後者の方向はより実際的な重要性があるため、XML 研究の焦点となっています。

ストレージソリューションに加えて、インデックス作成テクノロジもデータベースシステムを決定する際の最も重要な要素の 1 つです。 XML ドキュメント用のインデックス構造が構築されていない場合、XML データに対するクエリはドキュメントツリー全体を走査することになる可能性があり、XML データセットが増加するにつれて、このオーバーヘッドは許容できなくなります。したがって、XML インデックス技術の研究は理論的かつ実用的価値が高くなります。

従来のインデックス作成テクノロジーは長期的な蓄積を経て比較的成熟しましたが、このタイプのインデックス作成テクノロジーは主に（特定の関係を持つパターンではなく）値に基づいてデータレコードを検索する機能をターゲットにしており、お金はかかりませんXML データクエリの基本的な特徴は、データ間の論理的な関係 (正規のパス式で記述された構造的な関係) の入力に基づいてデータを抽出することです。 XML インデックスの内容は、パターンマッチング技術の設計と適用です。

XMLインデックス分類

パスベースのXMLインデックス

パスベースのインデックスは、XMLツリー構造内のノードのパス情報に基づいており、特定の削減方法を採用して作成されます結果のツリー構造は、異なるパス情報を維持するだけであり、同じパスを持つ 2 つのノードは存在しません。提案されているインデックスには、DataGuides インデックス、Index Fabric インデックス、Adaptive Path Index for XML Data (APEX) が含まれます

Dataguides インデックスは、ルートノードから始まる洗練されたパスです。の構造概要。エッジラベルの連結によって形成される文字列パスは、データガイド内で 1 回だけ記述されます。データガイドは、パスクエリを走査するときに必要なノードの数を減らし、XML ドキュメントをルートから効率的に走査します。ただし、ワイルドカード文字を含むパスクエリや、XPath 標準で定義されている子孫または自己軸を使用したパスクエリでは、複数の接続操作が必要となるため、クエリの効率が低くなり、データの冗長性が生じます。

次に、これら 2 つの大きなフィールドに関する Java オブジェクトファイル TestLob.java を作成し、型を CLOB として定義し、BLOB 属性フィールドをそれぞれ String および byte[] として定義します。 CLOB は大きなテキスト型であるため、これは The に対応します。 Java の String 型と BLOB は、厳密に定義されておらず、バイナリストリームの形式で保存されている大きなファイルを処理するために使用されます。そのため、byte[] 型を使用し、これら 2 つのプロパティの Getter メソッドと Setter メソッドを定義します。関連するコードは次のとおりです:

Dataguides インデックスは、ルートノードから始まる洗練されたパスの構造的な概要です。エッジラベルの連結によって形成される文字列パスは、データガイド内で 1 回だけ記述されます。データガイドは、パスクエリを走査するときに必要なノードの数を減らし、XML ドキュメントをルートから効率的に走査します。ただし、ワイルドカード文字を含むパスクエリや、XPath 標準で定義されている子孫または自己軸を使用したパスクエリでは、複数の接続操作が必要となるため、クエリの効率が低くなり、データの冗長性が生じます。

Index Fabric は、Patricia Trie ツリー上に開発されたインデックス構造であり、各要素ノードへのマークされたパスを文字列でエンコードし、これらのエンコードされた値を Patricia Trie ツリーに挿入します。パスは文字列のクエリに変換されます。クエリを実行するときは、まずクエリパスを文字列形式にエンコードしてから、インデックスツリー内で検索します。 Index Fabric インデックスの利点は、XML データの階層構造情報を格納し、スキーマのある XML データとスキーマのない情報の取得を均一に処理し、XML データのクエリと更新に必要な時間が、階層に関係なく済むことです。インデックスキーの長さが関係します。 Index Fabric インデックスの欠点は、テキスト値を持つ要素ノードの情報のみを保持するため、要素ノード間の構造的関係が失われることです。したがって、DataGuide インデックスと同様に、Index Fabric インデックスは、XPath 標準で定義されている子孫または自己軸を使用した部分一致クエリ式の処理には効率的ではありません。このため、APEX [14] では、XML データクエリ分散情報への依存関係が導入されました。頻繁に発生する XML クエリステートメントに対応するラベルノードをハッシュ構造に事前保存します。その機能はキャッシュの機能に似ています。新しいクエリの処理が必要な場合、まずハッシュテーブルを検索して、満足のいくノードセットがあるかどうかを確認します。ただし、要素値または属性値を含むクエリ式の場合は効率が低くなります。

ノードベースのインデックス

本質的に、ノードベースのインデックス作成は、XMLデータをデータユニットのレコードセットに分解し、同時にユニットの位置情報をXMLデータに保存することです。記録にある。パスベースのインデックスとは異なり、ノードベースのインデックスは、ラベルパスを通じてノードを見つける必要があるという制限を破り、XML データを正規形式のノードレコードに分解します。ノードの位置情報を保存し、成熟したリレーショナルデータベース管理システムにうまく統合できるため、現在最も広く使用されているインデックスです。

位置情報のさまざまなエンコード方法に従って、ノードベースのインデックスは一般に次のカテゴリに分類できます:

1. プレフィックスベースのインデックス

は主にプレフィックスベースのインデックスに基づいています。 Dewey [12] では、生成されたインデックスをエンコードしています。文献 [13] の ORDPATH エンコードでは、同様の方法が使用されており、ORDPATH を圧縮する方法が SQL Server 2005 のインデックス構成に適用されています。

プレフィックスエンコーディングの基本的な考え方は、ノードの親ノードのエンコーディングをノードエンコーディングのプレフィックスとして直接使用し、ノード v が別のノードの子孫であるかどうかを判断することです。ノード u、u を決定するだけです。エンコーディングは v のエンコーディングのプレフィックスです。プレフィックスコーディングインデックスの重要な特性は、その辞書の順序付けです。ノード r をルートとするサブツリー内の任意のノード u について、そのプレフィックスコーディング c(u) は、その左の兄弟サブツリー (右の兄弟サブツリー) より大きい (小さい) です。内のすべてのノードの。したがって、プレフィックスベースのインデックスは、包含関係の計算を効果的にサポートできるだけでなく、ドキュメントの位置関係の計算も効果的にサポートできます。

2. 間隔コーディングに基づくインデックス

間隔コーディングインデックスの場合、ツリー T 内の各ノードには間隔コード [開始、終了] が割り当てられます。これは次の条件を満たします。言い換えると、ツリー T のノード u は、start(u)

の場合に限り、ノード v の祖先になります。最初の間隔エンコーディングスキームはディーツエンコーディングであり、ツリー T の各ノードは次のとおりです。前順走査番号と後順走査番号を持つタプルを割り当てます。ツリー T 内の祖先ノード u は、前順走査中 (後順走査) ノード v の前 (後) にその子孫に出現する必要があるため、したがって、ノード u と v は、PRe(u)

の場合に限り、祖先/子孫の関係になります

間隔でエンコードされたインデックスのもう 1 つの典型的な例は、XISS インデックスです。これは各ノードに番号ペアを割り当てます。順序は次のとおりです。拡張プリオーダーコードとサイズは、ノードの子孫の範囲です。ドキュメントツリー内の任意のノード X および Y について、order(x)

XISS インデックスが元のクエリステートメントを部分式に分解する場合に限ります。次に、これらの部分式に対してそれぞれクエリを実装し、最後にこれらの中間結果を結合してクエリ結果セットを取得します。これにより、ワイルドカード文字を含むクエリステートメントをより適切にサポートできるようになります。ただし、最終的なクエリ結果は、各中間結果を連結した後に取得されます。このような方法は確かにすべてのワイルドカード問題を解決できますが、そのような中間結果の連結は、特に長いパスを持つ単純な式の場合、非常に時間がかかる可能性があります。

2 つのインデックス作成メカニズムの比較

パスベースのインデックス作成は、主にノードの等価性やパスの等価性などの手法に基づいており、元のドキュメントよりもはるかに小さいインデックス構造になります。構造は依然としてツリーであるため、クエリを処理するときは、基本的に結果を取得するためにインデックスツリー全体を走査する必要があります。パスベースのインデックスは、単純なパス式クエリを適切にサポートできますが、正規のパス式の場合はあまり適切に機能しません。

ノードベースのインデックスは、エンコード技術を通じて各ノードにインデックスを付けます。ノード間の構造的関係は、通常のパス式を適切にサポートできますが、特に多数の中間結果が発生する場合の長いパス式をサポートします。が生成されると、ノードインデックスの結合操作にコストがかかります。

パスベースのインデックス作成とノードベースのインデックス作成にはそれぞれ長所と短所がありますが、相互に補完し合うことができます。現在、実際のアプリケーションでは、ノードベースのインデックス作成がより広く使用されており、研究は比較的成熟しています。そのため、Dameng Company の XML インデックス構造に関する研究は主にノードベースのインデックス作成に焦点を当てており、パスベースのインデックス作成を参照して適切な改善を行っています。。

上記は、今日注目の研究テーマとなっている XML データクエリ技術の内容です。その他の関連コンテンツについては、PHP 中国語 Web サイト (www.php.cn) に注目してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7526

CakePHP チュートリアル

1378

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

PowerPoint を使用して XML ファイルを開くことはできますか? Feb 19, 2024 pm 09:06 PM

XML ファイルは PPT で開くことができますか? XML、Extensible Markup Language (Extensible Markup Language) は、データ交換とデータストレージで広く使用されている汎用マークアップ言語です。 HTML と比較して、XML はより柔軟であり、独自のタグとデータ構造を定義できるため、データの保存と交換がより便利で統一されます。 PPT (PowerPoint) は、プレゼンテーションを作成するために Microsoft によって開発されたソフトウェアです。包括的な方法を提供します。

Python を使用した XML データのマージと重複排除 Aug 07, 2023 am 11:33 AM

Python を使用した XML データのマージと重複排除 XML (eXtensibleMarkupLanguage) は、データの保存と送信に使用されるマークアップ言語です。 XML データを処理するとき、複数の XML ファイルを 1 つにマージしたり、重複データを削除したりする必要がある場合があります。この記事では、Python を使用して XML データのマージと重複排除を実装する方法と、対応するコード例を紹介します。 1. XML データのマージ複数の XML ファイルがある場合、それらをマージする必要があります。

Python を使用した XML データのフィルタリングと並べ替え Aug 07, 2023 pm 04:17 PM

Python を使用した XML データのフィルタリングと並べ替えの実装はじめに: XML は、データをタグと属性の形式で保存する、一般的に使用されるデータ交換形式です。 XML データを処理するとき、多くの場合、データのフィルタリングと並べ替えが必要になります。 Python には、XML データを処理するための便利なツールとライブラリが多数用意されています。この記事では、Python を使用して XML データをフィルタリングおよび並べ替える方法を紹介します。 XML ファイルの読み取り始める前に、XML ファイルを読み取る必要があります。 Python には XML 処理ライブラリが多数ありますが、

Python で XML データを CSV 形式に変換する Aug 11, 2023 pm 07:41 PM

Python の XML データを CSV 形式に変換する XML (ExtensibleMarkupLanguage) は、データの保存と送信に一般的に使用される拡張可能なマークアップ言語です。 CSV (CommaSeparatedValues) は、データのインポートとエクスポートに一般的に使用されるカンマ区切りのテキストファイル形式です。データを処理するとき、分析や処理を容易にするために、XML データを CSV 形式に変換する必要がある場合があります。 Pythonは強力です

Python は XML と JSON 間の変換を実装します Aug 07, 2023 pm 07:10 PM

Python は XML と JSON 間の変換を実装しますはじめに: 日常の開発プロセスでは、異なる形式間でデータを変換する必要があることがよくあります。 XML と JSON は一般的なデータ交換形式であり、Python ではさまざまなライブラリを使用して XML と JSON の間で変換できます。この記事では、一般的に使用されるいくつかの方法をコード例とともに紹介します。 1. Python で XML を JSON に変換するには、xml.etree.ElementTree モジュールを使用できます。

Python を使用した XML でのエラーと例外の処理 Aug 08, 2023 pm 12:25 PM

Python を使用した XML でのエラーと例外の処理 XML は、構造化データの保存と表現に使用される一般的に使用されるデータ形式です。 Python を使用して XML を処理すると、エラーや例外が発生することがあります。この記事では、Python を使用して XML のエラーと例外を処理する方法を紹介し、参考用のサンプルコードをいくつか示します。 Try-Except ステートメントを使用して XML 解析エラーを捕捉する Python を使用して XML を解析すると、時々、次のようなエラーが発生することがあります。

Python は XML 内の特殊文字とエスケープシーケンスを解析します Aug 08, 2023 pm 12:46 PM

Python は XML 内の特殊文字とエスケープシーケンスを解析します XML (eXtensibleMarkupLanguage) は、異なるシステム間でデータを転送および保存するために一般的に使用されるデータ交換形式です。 XML ファイルを処理する場合、特殊文字やエスケープシーケンスが含まれる状況に遭遇することが多く、これにより解析エラーやデータの誤解が生じる可能性があります。したがって、Python を使用して XML ファイルを解析する場合は、これらの特殊文字とエスケープシーケンスの処理方法を理解する必要があります。 1. 特殊文字と

C# 開発で XML および JSON データ形式を処理する方法 Oct 09, 2023 pm 06:15 PM

C# 開発で XML および JSON データ形式を処理する方法には、特定のコードサンプルが必要です。現代のソフトウェア開発では、XML と JSON の 2 つのデータ形式が広く使用されています。 XML (Extensible Markup Language) はデータの保存と送信に使用されるマークアップ言語であり、JSON (JavaScript Object Notation) は軽量のデータ交換形式です。 C# 開発では、XML と JSON データの処理と操作が必要になることがよくありますが、この記事では、C# を使用してこれら 2 つのデータ形式を処理し、添付する方法に焦点を当てます。

See all articles

XML データ クエリ テクノロジは、今日の注目の研究テーマになっています。