隠れた宝石
背景レビュー: 以前の記事で、「IntaLink の目標は、データ統合の分野で自動データ リンクを実現することである」と述べました。議論から、IntaLink が「リレーショナル データと複数のテーブル」の自動リンクの問題に対処していることは明らかです。
ここで、この問題には広範な応用シナリオがあるのか、それとも実際の需要のない単なる疑似提案に過ぎないのかを議論しましょう。
大規模なモデル、ビッグデータ プラットフォーム、およびその他のテクノロジは、ビデオの作成や音声対話の促進が可能なマルチモーダル生成 AI など、ドキュメント、画像、オーディオ、ビデオを含むさまざまな種類の情報を利用できますが、結果は多くの場合オープンです。 -終わっていて主観的であり、場合によっては「幻覚」を引き起こすこともあります。したがって、参照や支援としてそれらを使用することは許容されますが、特定の厳しい作業環境では、タスクを完了するためにこの情報や大規模なモデルに依存することはできません。銀行、金融、運輸、貿易、会計、生産、エネルギーなどの分野では、構造化リレーショナル データを使用して中核となるビジネス データを管理する必要があります。
(1) リレーショナル データベースの設計パラダイム では、大幅な冗長性を避けるためにデータを合理的に分割する必要があります。構築段階で生成されたデータに多くの冗長性が含まれている場合、データ収集の作業負荷が重複するだけでなく、データの一貫性を確保することも困難になります。別の観点から見ると、すべての関連データが 1 つのテーブルに格納されているが、データ項目がさまざまなビジネス ソースから取得され、データ コレクターや生成時間が異なる場合、そのようなデータ レコードを維持することは不可能になります。したがって、データ構築では本質的にオブジェクト指向とビジネス活動に基づいてデータが整理され、異なるテーブル間での分散が行われます。
(2) データは複数のシステムから生成される必要があります。情報技術の構築は一度に完了するものではないため、必然的に一連の開発が行われます。同じシステム内であっても、実装のスケジュールにはばらつきがある可能性があります。さらに、アプリケーションシナリオが異なれば、技術的な選択も異なります。たとえば、ビジネス データ、リアルタイム データ、ログ情報はさまざまなテクノロジーを通じて実現され、データは本質的にマルチソースになります。
アプリケーションにはデータを統合する必要があります。データ統合アプリケーションの需要にはさまざまな可能性があります。たとえば、生産データと計画データを統合すると、計画の完了状況を評価できます。生産データと販売データを統合すると、製品のバックログや注文の配送状況を特定できます。生産データと財務データを統合することで、生産コストと収益性を評価できます。したがって、データ統合は、データの価値を最大化し、ビジネス プロセスを強化する最も効果的な方法です。
要約すると、リレーショナル データの統合アプリケーションは、今後も長い間最も重要なデータ アプリケーション シナリオの 1 つであり続けるでしょう。このシナリオが存在する限り、IntaLink は幅広い適応性を備えています。
T2SQL (Text to SQL) および NL2SQL (Natural Language to SQL) は、テキストまたは自然言語入力を通じて必要なデータ クエリを自動的に生成します。 T2SQL と NL2SQL という用語は、本質的に同じ概念を表しています。つまり、AI テクノロジーを利用して意味論的な理解をデータ操作方法に変換するというもので、同じ概念ですが、用語が異なります。これはデータ応用における研究の方向性です。近年、大型モデル技術の出現により、この分野は大きな進歩を遂げています。私はアリババやテンセントの技術レポートを調査し、DB-GPT などのオープンソース プロジェクトを試しました。これらのテクノロジーは、少なくともその基礎となる技術ロジックにおいてはほぼ似ていますが、IntaLink のアプローチはまったく異なります。
基礎的な技術ロジックはひとまず置いておいて、実装方法に基づいて比較分析を行ってみましょう:
T1、T2、...、Tn という名前のテーブルのセットがあり、それぞれのテーブルに C1、C2、...、Cn というラベルの付いた複数のデータ項目が含まれており、テーブルごとの項目数は異なります。次のようなテーブル T1 のシミュレートされたデータセットを考えてみましょう:
C1 | C2 | C3 | C4 | C5 | C6 |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
このコンテンツだけからは有益な情報を得ることができません。上記のデータの意味は不明です。データの 2 つの意味をシミュレートしてみましょう:
Fruit Type | Warehouse No. | Shelf No. | Stock | Shelf Life | Warehouse Manager ID |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
Hotel Name | Warehouse Hotness Ranking | Star Rating | Years in Business | Remaining Rooms | Discount Available |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
これらのデータセットの有効性やそのようなテーブルの存在については詳しく説明しません。しかし、テーブルやデータ項目の意味を理解しなければ、データを適用できないことは明らかです。データ アプリケーションのニーズをデータ自体に結び付けることはできず、ましてやより複雑なデータ操作について議論することはできません。
NL2SQL をテストするためのデータセットを使用して、この分野における大規模モデル テクノロジのアプリケーション パターンを説明します。
Spider データセットは、マルチデータベース、マルチテーブル、シングルラウンド クエリ用の T2S データセットであり、最も困難な大規模クロスドメイン評価リーダーボードとして認識されています。これは 2018 年にイェール大学によって提案され、イェール大学の学生 11 人が注釈を付けました。データセットには 11,181 の自然言語の質問と 5,693 の SQL ステートメントが含まれており、138 の異なるドメインにわたる 200 以上のデータベースをカバーしています。トレーニングには 7000 問、開発には 134 問、テストには 2147 問が使用されます。つまり、質問とそれに対応する回答 (SQL) を提供することで、大規模モデルはデータの活用方法を学習します。簡単にするために、ロジックを次のように要約できます:
このようなデータセットを使用してモデルをトレーニングした後、次のテスト質問を提示できます:
このことから、NL2SQL はトレーニングされたデータセットに依存し、セマンティックおよびコンテキストの理解に基づいて可能な SQL クエリを導出することを重視していることがわかります。
IntaLink のデータ統合では、ユーザーがトレーニング データを提供する必要はありません。データ間の関係は、テーブル間関係分析モデルを通じて生成されます。この関係の生成には、テーブルとデータ項目の実際の重要性を理解する必要はありませんが、データの特性値を分析してテーブル間の関連性を推定する一連のメソッドを通じて導き出されます。以下では、2 つのサンプル テーブルを使用してテーブル間のリレーションシップの確立を説明します。
タブ_1
Name | Student_ID | CLASS | Age | Sex |
---|---|---|---|---|
Zhang San | 2021_0001 | 2021_01 | 19 | Male |
Li Si | 2021_0002 | 2021_01 | 18 | Female |
Wang Wu | 2021_0003 | 2021_01 | 19 | Male |
タブ_2
Student_ID | Course | Grade | Rank |
---|---|---|---|
2021_0001 | Math | 135 | 18 |
2021_0001 | Chinese | 110 | 23 |
2021_0002 | Math | 120 | 25 |
2021_0002 | Chinese | 125 | 10 |
Tab_1 の Student_ID は Tab_2 の Student_ID と一致し、同じ特性値を共有します。したがって、これら 2 つのテーブルをリンクするには、条件 Tab_1.Student_ID = Tab_2.Student_ID が成立します。テーブル間のリンケージを分析するには、多数の要素を考慮する必要があります。 IntaLink では、データ特性値メモリ データベースを分析ツールとして複製し、最適化された一連の分析手法を利用してテーブル間の関係分析結果を生成します。内容が複雑なため、ここではこれ以上詳しく説明しません。実装ロジックについては別の記事で説明します。
大規模モデル テクノロジーは意味の理解と生成コンテンツに優れていますが、IntaLink は初期作業負荷が低く、精度が高いため、データ関連分析に利点があります。理想的には、大規模なモデル テクノロジを統合してユーザー入力要件を理解し、その情報を必要なデータ テーブルと項目に変換し、IntaLink がデータ セット用に生成し、その後、大規模なモデルが望ましい結果 (レポート、グラフ、レポートなど) を生成することができます。など) ユーザープレゼンテーション用。
IntaLink の旅にぜひご参加ください。私たちとつながり、私たちのプロジェクトに貢献してください:
? GitHub リポジトリ: IntaLink
? Discord コミュニティに参加してください
オープンソース革命に参加し、インテリジェントなデータ統合の未来の形成にご協力ください!
以上がIntaLink: 大型モデルとは異なる新しい NLL テクノロジーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。