VLDB 2023 国際会議がカナダのバンクーバーで無事開催されました。 VLDB 会議は、データベース分野で長い歴史を持つ 3 つのトップ会議の 1 つであり、正式名称は International Large-Scale Database Conference です。各カンファレンスは、データベース研究の現在の最先端の方向性、業界の最新技術、さまざまな国の研究開発レベルを展示することに重点を置いており、世界トップの研究機関からの応募が集まります。
カンファレンス システムの革新性、完全性、実験計画などに関して非常に高い要件が求められます。 VLDB の論文採択率は一般に約 18% と低く、貢献度の高い論文のみが採択される可能性があります。今年も競争はさらに激化している。公式データによると、今年はスタンフォード大学、カーネギーメロン大学、Microsoft Research、VMware Research、Meta、その他の世界的に有名な大学、研究機関、テクノロジー大手からの論文を含む、合計 9 件の VLDB 論文が最優秀論文賞を受賞しました。その中で、4Paradigm、清華大学、シンガポール国立大学が共同で完成させた論文「FEBench: A Benchmark for Real-Time Relational Data Feature Extraction」が、最優秀産業論文の次点賞を受賞しました。
この論文は、4Paradigm、清華大学、シンガポール国立大学の共同研究です。この論文では、機械学習に基づくリアルタイムの意思決定システムを評価するために使用される、業界における実際のシナリオの蓄積に基づくリアルタイム特徴計算テスト ベンチマークを提案しています。 次のリンクで「論文を表示」をクリックしてください: https://github.com/decis-bench/febench/blob/main/report/febench.pdf##プロジェクトアドレス: https://github.com/decis-bench/febench 書き換える必要がある内容は次のとおりです。プロジェクトのアドレスは https://github.com/decis-bench/febench
プロジェクトの背景
書き直された内容: 図 1. 不正行為対策アプリケーションにおけるリアルタイム特徴計算の応用
一般的に言えば、リアルタイム特徴計算プラットフォームは、次の 2 つの基本要件を満たす必要があります:
オンラインとオフラインの一貫性: 機械学習アプリケーションは通常、オンラインとオンラインの 2 つのプロセスに分けられます。履歴データと、データからのリアルタイム推論に基づくトレーニング。したがって、オンラインとオフラインの最終的なビジネス結果の一貫性を確保するには、オンラインとオフラインの特徴計算ロジックの一貫性を確保することが重要です。オンライン サービスの効率: オンライン サービスは、リアルタイムのデータと計算を目的としており、低遅延、高同時実行性、高可用性のニーズを満たします。
技術原則
FEBench のベンチマーク構築には、主に 3 つの作業側面が含まれます。データ セットの収集、クエリで生成されたコンテンツの書き換えが必要な場合、およびコンテンツの書き換えが必要な場合です。書き換えられる場合は、適切なテンプレートを選択してください データセット コレクション 研究チームは、リアルタイム特徴計算シナリオで使用できる合計 118 のデータ セットを収集しました。これらのデータ セットは、Kaggle、Tianchi、UCI から提供されています。 ML、KiltHub およびその他の公開ソース: データ Web サイトと 4Paradigm 内部公開データは、金融、小売、医療、製造、運輸、その他の業界シナリオなど、業界の一般的な使用シナリオをカバーしています。研究チームは、以下の図 3 に示すように、収集したデータ セットをテーブルの数とデータ セットのサイズに応じてさらに分類しました。 書き換えた内容: FEBench のテーブル数とデータセットのサイズのグラフは次のとおりです: クエリ生成されたコンテンツは書き換える必要があります データ セットの数が多いため、データ セットごとに特徴抽出を手動で生成する計算ロジックのワークロードは非常に膨大であるため、研究者はAutoCross (参考資料: AutoCross: 実世界アプリケーションにおける表形式データの自動特徴交差) や、収集されたデータ セットのクエリを自動的に生成するその他の自動機械学習テクノロジなどのツール。 FEBench の機能選択とクエリ生成コンテンツを書き直す必要があります。これには、次の 4 つのステップが含まれます (下の図 4 を参照): データ セット内のメイン テーブルを識別する (ストリーミング データ ) と初期化用の補助テーブル (静的/追加可能/スナップショット テーブルなど) を格納します。続いて、主テーブルと副テーブルの類似した名前またはキー関係を持つ列が分析され、異なる機能操作モードに対応する列間の 1 対 1/1 対多の関係が列挙されます。 列の関係を特徴演算子にマップします。 すべての候補特徴を抽出した後、ビーム検索アルゴリズムを使用して効果的な特徴セットを繰り返し生成します。 選択された機能は、意味的に同等の SQL クエリに変換されます。 #図 4. FEBench でのクエリ生成プロセス 内容を書き換える場合は、適切なテンプレートを選択する必要があります 最後に、クラスタリングの結果に基づいて、118 個の特徴クエリが 6 つのクラスターに分割されました。各クラスターについて、重心に近いクエリが候補テンプレートとして選択されます。さらに、さまざまなアプリケーション シナリオの人工知能アプリケーションにはさまざまな特徴エンジニアリング要件がある可能性があることを考慮して、さまざまな特徴エンジニアリング シナリオをより適切にカバーできるように、各クラスターの重心付近のさまざまなシナリオからクエリを選択するようにしてください。最後に、交通、ヘルスケア、エネルギー、販売、金融取引など、さまざまなシナリオに適した 6 つのクエリ テンプレートが 118 の機能クエリから選択されました。これら 6 つのクエリ テンプレートは、最終的に FEBench のコア データ セットとクエリを構成し、リアルタイム特徴計算プラットフォームのパフォーマンス テストに使用されます。 この研究では、研究者らは FEBench を使用して、Flink と OpenMLDB という 2 つの典型的な産業システムをテストしました。 Flink は一般的なバッチおよびストリーム処理の一貫したコンピューティング プラットフォームであるのに対し、OpenMLDB は専用のリアルタイム機能コンピューティング プラットフォームです。研究者たちは、テストと分析を通じて、各システムの長所と短所、およびその背後にある理由を発見しました。実験結果は、アーキテクチャ設計の違いにより、Flink と OpenMLDB の間にパフォーマンスの違いがあることを示しています。同時に、これはターゲット システムの機能を分析する際の FEBench の重要性も示しています。要約すると、研究の主な結論は次のとおりです。 Flink は、待ち時間が OpenMLDB より 2 桁遅いです (図 6)。研究者らは、このギャップの主な理由は、2 つのシステム アーキテクチャの実装方法の違いにあると分析しており、OpenMLDB は、リアルタイム特徴計算専用システムとして、メモリベースの 2 層ジャンプ テーブルや時間的に最適化されたその他のデータ構造を備えています。最終的に、Flink と比較すると、特徴量計算シナリオにおいて明らかにパフォーマンス上の利点があります。もちろん、汎用システムである Flink は、OpenMLDB よりも適用可能なシナリオの範囲が広いです。 #図 6. OpenMLDB と Flink 間の TP-50 レイテンシーの比較 研究者らは、上記のパフォーマンス結果をさらに詳しく調べました。 実行時間に基づいて逆アセンブルおよび分析します。マイクロアーキテクチャの指標には、命令の完了、誤った分岐の予測、バックエンドの依存関係、フロントエンドの依存関係などが含まれます。クエリ テンプレートが異なれば、微細構造レベルでパフォーマンスのボトルネックも異なります。図 8 に示すように、Q0 ~ Q2 のパフォーマンスのボトルネックは主にフロントエンドに依存しており、全体の実行時間の 45% 以上を占めています。この場合、実行される操作は比較的単純で、ほとんどの時間はユーザー要求の処理と特徴抽出命令の切り替えに費やされます。第 3 四半期から第 5 四半期にかけて、バックエンドの依存関係 (キャッシュの無効化など) と命令の実行 (より複雑な命令を含む) がより重要な要素になります。 OpenMLDB は、ターゲットを絞った最適化によってパフォーマンスをさらに向上させます
9 番目の図は、実行計画に関する OpenMLDB と Flink の比較を示しています (Q0) Flink プロジェクト: https://github.com /apache/flink
図 5. クラスター分析を通じて 6 つのクラスターを取得した 118 個の特徴クエリと生成されたクエリ テンプレート ( Q0 -5)
実行プランの分析: Q0 を例として、以下の図 9 は Flink と OpenMLDB の実行プランの違いを比較しています。 Flink の計算演算子は最も時間がかかりますが、OpenMLDB はウィンドウ処理を最適化し、カスタム集計関数などの最適化手法を使用することで実行レイテンシを短縮します。
FEBench プロジェクト: https://github.com/decis-bench/febench
以上がVLDB 2023 賞が発表、清華大学、4Paradigm、NUS の共同論文が最優秀産業論文賞を受賞の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。