IntaLink：區別於大型模型的新型 NLL 技術-java教程-PHP中文網

首頁

Java

java教程

IntaLink：區別於大型模型的新型 NLL 技術

Susan Sarandon

Oct 31, 2024 pm 09:05 PM

IntaLink: A New NLL Technology Distinct from Large Models

IntaLink：有別於大型模式的全新 NL2SQL 技術

隱藏的寶石

IntaLink廣泛的應用場景

背景回顧：在先前的文章中，提到「IntaLink的目標是在資料整合領域實現自動化的資料連結」。從討論中可以看出，IntaLink 解決的是「關聯式資料和多個表」的自動連結問題。

現在我們來討論這個問題是否有廣泛的應用場景，還是只是一個沒有實際需求的偽命題。

01 關係數據仍然是最重要的數據資產之一

雖然大型模型、大數據平台和其他技術可以利用各種類型的信息，包括文件、圖像、音頻和視頻，例如能夠生成視頻和促進語音交互的多模態生成人工智能，但結果往往是開放的-結束和主觀，偶爾會導致“幻覺”。因此，雖然使用它們作為參考或幫助是可以接受的，但在某些嚴格的工作環境中，我們不能依賴這些資訊或大型模型來完成任務。在銀行、金融、交通、貿易、會計、生產、能源等領域，核心業務資料必須使用結構化關係資料進行管理。

02 資料建置不可避免且分散式

（1）關係資料庫的設計範式要求資料合理劃分，避免大量冗餘。如果建置階段產生的資料包含大量冗餘，不僅資料擷取工作量重複，資料一致性也難以保證。從另一個角度來看，如果所有相關資料都儲存在一張表中，但資料項目來自不同的業務來源，資料收集者和產生時間各不相同，那麼維護這樣的資料記錄就變得不可能。因此，數據建構本質上會基於物件導向和業務活動來組織數據，從而導致數據分佈在不同的表中。
(2) 資料必須來自多個系統。資訊化建設不是一蹴可幾的，必然存在一系列的發展過程。即使在同一系統內，實施時間表也可能存在差異。而且，不同的應用場景需要不同的技術選擇；例如業務資料、即時資料、日誌資訊都可以透過各種技術來實現，使得資料本質上是多來源的。

03 整合是釋放資料價值最有效的手段

應用需要整合資料。數據整合應用的需求有多種可能性。例如，整合生產數據和計劃數據可以評估計劃完成情況；整合生產數據和銷售數據可以識別產品積壓或訂單交付的履行；將生產數據與財務數據相結合可以評估生產成本和盈利能力。因此，資料整合是最大化資料價值、賦能業務流程的最有效途徑。

綜上所述，關係資料的整合應用將在很長一段時間內仍然是最重要的資料應用場景之一。只要這個場景存在，IntaLink就會有廣泛的適應性。

IntaLink 與大模型資料整合方法的比較

T2SQL（文字轉SQL）和NL2SQL（自然語言轉SQL）透過文字或自然語言輸入自動產生所需的資料查詢。 T2SQL和NL2SQL本質上描述了同一個概念：利用人工智慧技術將語義理解轉化為資料操作方法，這是相同的想法，但術語不同。這是資料應用的一個研究方向。近年來，隨著大模型技術的出現，這一領域取得了長足的進步。我研究了阿里巴巴和騰訊的技術報告，並嘗試了DB-GPT等開源專案。這些技術在很大程度上相似，至少在底層技術邏輯上是相似的，而 IntaLink 的方法則完全不同。

我們先拋開底層的技術邏輯，依照實作方式進行比較分析：

1.利用大模型技術進行資料自動查詢需要資料訓練

假設我們有一組名為 T1、T2、...、Tn 的表，每個表包含多個標記為 C1、C2、...、Cn 的資料項，每個表的項數不同。考慮表 T1 的模擬資料集，如下所示：

C1	C2	C3	C4	C5	C6
Orange	5	3	3	2	1

僅從這些內容中，我們無法得出任何有用的信息。我們不清楚上述數據的含義。讓我們模擬一下數據的兩種意義：

Fruit Type	Warehouse No.	Shelf No.	Stock	Shelf Life	Warehouse Manager ID
Orange	5	3	3	2	1

Hotel Name	Warehouse Hotness Ranking	Star Rating	Years in Business	Remaining Rooms	Discount Available
Orange	5	3	3	2	1

我們不會詳細討論這些資料集的有效性或此類表的存在性。然而，很明顯，如果不理解表格和資料項目的含義，則資料無法應用。人們無法將資料應用需求與資料本身連結起來，更不用說討論更複雜的資料操作。

用一個測試NL2SQL的資料集，來說明一下大模型技術在該領域的應用模式。

Spider資料集是多庫、多表、單輪查詢的T2S資料集，被公認為最具挑戰性的大規模跨域評估排行榜。它由耶魯大學於 2018 年提出，並由 11 名耶魯大學學生註釋。此資料集包含一萬一百八十一個自然語言問題和五千六百九十三條SQL語句，涵蓋138個不同領域的200多個資料庫。七千個問題用於培訓，一千三十四個問題用於開發，兩千一百四十七個問題用於測試。換句話說，透過提供問題及其對應的答案 (SQL)，大型模型可以學習如何利用資料。為了簡單起見，我們可以將邏輯壓縮如下：

問題1：紅色唇膏有多少庫存？
答案 1：從倉庫中選出數量，其中 good_name='lipstick' 且 color='red'

使用這樣的資料集訓練模型後，我們可以提出以下測試問題：

測試問題：藍色口紅有多少庫存？
輸出答案：從倉庫中選出數量，其中 good_name='lipstick' 且 color='blue'

從中我們可以看出，NL2SQL 強調基於語意和上下文理解，並依賴經過訓練的資料集來導出可能的 SQL 查詢。

IntaLink的資料整合方法

IntaLink的資料整合不需要使用者提供任何訓練資料。資料之間的關係是透過表間關係分析模型產生的。這種關係的產生不需要理解表和資料項的實際意義，而是透過一組分析資料特徵值的方法來推導表之間的關聯。下面我們用兩個範例表來說明表間關係的建立。

Tab_1

Name	Student_ID	CLASS	Age	Sex
Zhang San	2021_0001	2021_01	19	Male
Li Si	2021_0002	2021_01	18	Female
Wang Wu	2021_0003	2021_01	19	Male

Tab_2

Student_ID	Course	Grade	Rank
2021_0001	Math	135	18
2021_0001	Chinese	110	23
2021_0002	Math	120	25
2021_0002	Chinese	125	10

在Tab_1中，Student_ID與Tab_2中的Student_ID匹配，具有相同的特徵值。因此，要連結這兩個表，條件 Tab_1.Student_ID = Tab_2.Student_ID 成立。表間連結的分析需要考慮許多因素。在IntaLink中，我們複製資料特徵值記憶體資料庫作為分析工具，並利用一套最佳化的分析方法來產生表間關係分析結果。由於涉及內容比較複雜，這裡不再贅述。單獨的文章會討論實作邏輯。

IntaLink 和大模型技術在實現 NL2SQL 的差異

1) 大模型無需準備訓練題集；相反，關係是透過資料分析得出的。因此，IntaLink可以應用於廣泛的數據。可整合的數據越多，其優勢就越大。
2) 專注於資料集成，特別是集成過程中關係條件的生成，而不關注資料的使用方法。注意：資料整合涉及建立多個表之間的關係，而資料的使用方法可以多種多樣，例如求和、計數、平均值、最小值和最大值等。 NL2SQL根據語意選擇適當的資料操作方法，例如SUM、COUNT、AVG、最小值、最大值等
3)準確率高：排除資料品質問題，IntaLink產生的關係條件理論上可以達到百分之百的準確率。

IntaLink 和大型模型技術的潛在組合

大模型技術在語意理解和產生內容方面表現出色，而IntaLink在資料關聯分析方面具有優勢，前期工作量較低，準確率較高。理想情況下，可以整合大型模型技術來了解使用者輸入要求，將這些資訊轉換為必要的資料表和項目，然後IntaLink 將為資料集產生這些資料表和項目，然後大型模型產生所需的結果（例如報告、圖表、等）用於使用者簡報。