IntaLink: 大型モデルとは異なる新しい NLL テクノロジー-＆＃＆チュートリアル-php.cn

ホームページ

Java

＆＃＆チュートリアル

IntaLink: 大型モデルとは異なる新しい NLL テクノロジー

Susan Sarandon

Oct 31, 2024 pm 09:05 PM

IntaLink: A New NLL Technology Distinct from Large Models

IntaLink: 大規模モデルとは異なる新しい NL2SQL テクノロジー

隠れた宝石

IntaLink の幅広い応用シナリオ

背景レビュー: 以前の記事で、「IntaLink の目標は、データ統合の分野で自動データリンクを実現することである」と述べました。議論から、IntaLink が「リレーショナルデータと複数のテーブル」の自動リンクの問題に対処していることは明らかです。

ここで、この問題には広範な応用シナリオがあるのか、それとも実際の需要のない単なる疑似提案に過ぎないのかを議論しましょう。

01 リレーショナルデータは依然として最も重要なデータ資産の 1 つ

大規模なモデル、ビッグデータプラットフォーム、およびその他のテクノロジは、ビデオの作成や音声対話の促進が可能なマルチモーダル生成 AI など、ドキュメント、画像、オーディオ、ビデオを含むさまざまな種類の情報を利用できますが、結果は多くの場合オープンです。 -終わっていて主観的であり、場合によっては「幻覚」を引き起こすこともあります。したがって、参照や支援としてそれらを使用することは許容されますが、特定の厳しい作業環境では、タスクを完了するためにこの情報や大規模なモデルに依存することはできません。銀行、金融、運輸、貿易、会計、生産、エネルギーなどの分野では、構造化リレーショナルデータを使用して中核となるビジネスデータを管理する必要があります。

02 データ構築は避けられず分散化

(1) リレーショナルデータベースの設計パラダイム では、大幅な冗長性を避けるためにデータを合理的に分割する必要があります。構築段階で生成されたデータに多くの冗長性が含まれている場合、データ収集の作業負荷が重複するだけでなく、データの一貫性を確保することも困難になります。別の観点から見ると、すべての関連データが 1 つのテーブルに格納されているが、データ項目がさまざまなビジネスソースから取得され、データコレクターや生成時間が異なる場合、そのようなデータレコードを維持することは不可能になります。したがって、データ構築では本質的にオブジェクト指向とビジネス活動に基づいてデータが整理され、異なるテーブル間での分散が行われます。
(2) データは複数のシステムから生成される必要があります。情報技術の構築は一度に完了するものではないため、必然的に一連の開発が行われます。同じシステム内であっても、実装のスケジュールにはばらつきがある可能性があります。さらに、アプリケーションシナリオが異なれば、技術的な選択も異なります。たとえば、ビジネスデータ、リアルタイムデータ、ログ情報はさまざまなテクノロジーを通じて実現され、データは本質的にマルチソースになります。

03 統合はデータ価値を引き出す最も効果的な手段です

アプリケーションにはデータを統合する必要があります。データ統合アプリケーションの需要にはさまざまな可能性があります。たとえば、生産データと計画データを統合すると、計画の完了状況を評価できます。生産データと販売データを統合すると、製品のバックログや注文の配送状況を特定できます。生産データと財務データを統合することで、生産コストと収益性を評価できます。したがって、データ統合は、データの価値を最大化し、ビジネスプロセスを強化する最も効果的な方法です。

要約すると、リレーショナルデータの統合アプリケーションは、今後も長い間最も重要なデータアプリケーションシナリオの 1 つであり続けるでしょう。このシナリオが存在する限り、IntaLink は幅広い適応性を備えています。

IntaLink と大規模モデルのデータ統合方法の比較

T2SQL (Text to SQL) および NL2SQL (Natural Language to SQL) は、テキストまたは自然言語入力を通じて必要なデータクエリを自動的に生成します。 T2SQL と NL2SQL という用語は、本質的に同じ概念を表しています。つまり、AI テクノロジーを利用して意味論的な理解をデータ操作方法に変換するというもので、同じ概念ですが、用語が異なります。これはデータ応用における研究の方向性です。近年、大型モデル技術の出現により、この分野は大きな進歩を遂げています。私はアリババやテンセントの技術レポートを調査し、DB-GPT などのオープンソースプロジェクトを試しました。これらのテクノロジーは、少なくともその基礎となる技術ロジックにおいてはほぼ似ていますが、IntaLink のアプローチはまったく異なります。

基礎的な技術ロジックはひとまず置いておいて、実装方法に基づいて比較分析を行ってみましょう:

1. 自動データクエリに大規模モデルテクノロジーを利用するにはデータトレーニングが必要

T1、T2、...、Tn という名前のテーブルのセットがあり、それぞれのテーブルに C1、C2、...、Cn というラベルの付いた複数のデータ項目が含まれており、テーブルごとの項目数は異なります。次のようなテーブル T1 のシミュレートされたデータセットを考えてみましょう:

C1	C2	C3	C4	C5	C6
Orange	5	3	3	2	1

このコンテンツだけからは有益な情報を得ることができません。上記のデータの意味は不明です。データの 2 つの意味をシミュレートしてみましょう:

Fruit Type	Warehouse No.	Shelf No.	Stock	Shelf Life	Warehouse Manager ID
Orange	5	3	3	2	1

Hotel Name	Warehouse Hotness Ranking	Star Rating	Years in Business	Remaining Rooms	Discount Available
Orange	5	3	3	2	1

これらのデータセットの有効性やそのようなテーブルの存在については詳しく説明しません。しかし、テーブルやデータ項目の意味を理解しなければ、データを適用できないことは明らかです。データアプリケーションのニーズをデータ自体に結び付けることはできず、ましてやより複雑なデータ操作について議論することはできません。

NL2SQL をテストするためのデータセットを使用して、この分野における大規模モデルテクノロジのアプリケーションパターンを説明します。

Spider データセットは、マルチデータベース、マルチテーブル、シングルラウンドクエリ用の T2S データセットであり、最も困難な大規模クロスドメイン評価リーダーボードとして認識されています。これは 2018 年にイェール大学によって提案され、イェール大学の学生 11 人が注釈を付けました。データセットには 11,181 の自然言語の質問と 5,693 の SQL ステートメントが含まれており、138 の異なるドメインにわたる 200 以上のデータベースをカバーしています。トレーニングには 7000 問、開発には 134 問、テストには 2147 問が使用されます。つまり、質問とそれに対応する回答 (SQL) を提供することで、大規模モデルはデータの活用方法を学習します。簡単にするために、ロジックを次のように要約できます:

質問 1: 赤い口紅は何本在庫がありますか?
回答 1: Good_name='lipstick' および color='red' の倉庫から数量を選択します

このようなデータセットを使用してモデルをトレーニングした後、次のテスト質問を提示できます:

テスト質問: 青い口紅は何本在庫がありますか?
出力回答: Good_name='lipstick' および color='blue' の倉庫から数量を選択します

このことから、NL2SQL はトレーニングされたデータセットに依存し、セマンティックおよびコンテキストの理解に基づいて可能な SQL クエリを導出することを重視していることがわかります。

IntaLink のデータ統合方法

IntaLink のデータ統合では、ユーザーがトレーニングデータを提供する必要はありません。データ間の関係は、テーブル間関係分析モデルを通じて生成されます。この関係の生成には、テーブルとデータ項目の実際の重要性を理解する必要はありませんが、データの特性値を分析してテーブル間の関連性を推定する一連のメソッドを通じて導き出されます。以下では、2 つのサンプルテーブルを使用してテーブル間のリレーションシップの確立を説明します。

タブ_1

Name	Student_ID	CLASS	Age	Sex
Zhang San	2021_0001	2021_01	19	Male
Li Si	2021_0002	2021_01	18	Female
Wang Wu	2021_0003	2021_01	19	Male

タブ_2

Student_ID	Course	Grade	Rank
2021_0001	Math	135	18
2021_0001	Chinese	110	23
2021_0002	Math	120	25
2021_0002	Chinese	125	10

Tab_1 の Student_ID は Tab_2 の Student_ID と一致し、同じ特性値を共有します。したがって、これら 2 つのテーブルをリンクするには、条件 Tab_1.Student_ID = Tab_2.Student_ID が成立します。テーブル間のリンケージを分析するには、多数の要素を考慮する必要があります。 IntaLink では、データ特性値メモリデータベースを分析ツールとして複製し、最適化された一連の分析手法を利用してテーブル間の関係分析結果を生成します。内容が複雑なため、ここではこれ以上詳しく説明しません。実装ロジックについては別の記事で説明します。

NL2SQL の実装における IntaLink と大規模モデルテクノロジの違い

1) 大規模モデル用のトレーニング質問セットを準備する必要はありません。むしろ、関係性はデータ分析を通じて導き出されます。したがって、IntaLink は幅広いデータに適用できます。統合できるデータが多ければ多いほど、その利点は大きくなります。
2) データの使用方法には焦点を当てず、データ統合、特に統合中の関係条件の生成に焦点を当てます。注: データ統合は複数のテーブル間の関係の確立に関係しますが、データの使用方法は合計、カウント、平均値、最小値と最大値などさまざまです。NL2SQL は、SUM、COUNT、AVG などのセマンティクスに基づいて適切なデータ操作方法を選択します。最小、最大など
3) 高精度: データ品質の問題を除けば、IntaLink によって生成されるリレーショナル条件は理論的には 100% の精度を達成できます。

IntaLink とラージモデルテクノロジの潜在的な組み合わせ

大規模モデルテクノロジーは意味の理解と生成コンテンツに優れていますが、IntaLink は初期作業負荷が低く、精度が高いため、データ関連分析に利点があります。理想的には、大規模なモデルテクノロジを統合してユーザー入力要件を理解し、その情報を必要なデータテーブルと項目に変換し、IntaLink がデータセット用に生成し、その後、大規模なモデルが望ましい結果 (レポート、グラフ、レポートなど) を生成することができます。など) ユーザープレゼンテーション用。