隱藏的寶石
背景回顧:在先前的文章中,提到「IntaLink的目標是在資料整合領域實現自動化的資料連結」。從討論中可以看出,IntaLink 解決的是「關聯式資料和多個表」的自動連結問題。
現在我們來討論這個問題是否有廣泛的應用場景,還是只是一個沒有實際需求的偽命題。
雖然大型模型、大數據平台和其他技術可以利用各種類型的信息,包括文件、圖像、音頻和視頻,例如能夠生成視頻和促進語音交互的多模態生成人工智能,但結果往往是開放的-結束和主觀,偶爾會導致“幻覺”。因此,雖然使用它們作為參考或幫助是可以接受的,但在某些嚴格的工作環境中,我們不能依賴這些資訊或大型模型來完成任務。在銀行、金融、交通、貿易、會計、生產、能源等領域,核心業務資料必須使用結構化關係資料進行管理。
(1)關係資料庫的設計範式要求資料合理劃分,避免大量冗餘。如果建置階段產生的資料包含大量冗餘,不僅資料擷取工作量重複,資料一致性也難以保證。從另一個角度來看,如果所有相關資料都儲存在一張表中,但資料項目來自不同的業務來源,資料收集者和產生時間各不相同,那麼維護這樣的資料記錄就變得不可能。因此,數據建構本質上會基於物件導向和業務活動來組織數據,從而導致數據分佈在不同的表中。
(2) 資料必須來自多個系統。資訊化建設不是一蹴可幾的,必然存在一系列的發展過程。即使在同一系統內,實施時間表也可能存在差異。而且,不同的應用場景需要不同的技術選擇;例如業務資料、即時資料、日誌資訊都可以透過各種技術來實現,使得資料本質上是多來源的。
應用需要整合資料。數據整合應用的需求有多種可能性。例如,整合生產數據和計劃數據可以評估計劃完成情況;整合生產數據和銷售數據可以識別產品積壓或訂單交付的履行;將生產數據與財務數據相結合可以評估生產成本和盈利能力。因此,資料整合是最大化資料價值、賦能業務流程的最有效途徑。
綜上所述,關係資料的整合應用將在很長一段時間內仍然是最重要的資料應用場景之一。只要這個場景存在,IntaLink就會有廣泛的適應性。
T2SQL(文字轉SQL)和NL2SQL(自然語言轉SQL)透過文字或自然語言輸入自動產生所需的資料查詢。 T2SQL和NL2SQL本質上描述了同一個概念:利用人工智慧技術將語義理解轉化為資料操作方法,這是相同的想法,但術語不同。這是資料應用的一個研究方向。近年來,隨著大模型技術的出現,這一領域取得了長足的進步。我研究了阿里巴巴和騰訊的技術報告,並嘗試了DB-GPT等開源專案。這些技術在很大程度上相似,至少在底層技術邏輯上是相似的,而 IntaLink 的方法則完全不同。
我們先拋開底層的技術邏輯,依照實作方式進行比較分析:
假設我們有一組名為 T1、T2、...、Tn 的表,每個表包含多個標記為 C1、C2、...、Cn 的資料項,每個表的項數不同。考慮表 T1 的模擬資料集,如下所示:
C1 | C2 | C3 | C4 | C5 | C6 |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
僅從這些內容中,我們無法得出任何有用的信息。我們不清楚上述數據的含義。讓我們模擬一下數據的兩種意義:
Fruit Type | Warehouse No. | Shelf No. | Stock | Shelf Life | Warehouse Manager ID |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
Hotel Name | Warehouse Hotness Ranking | Star Rating | Years in Business | Remaining Rooms | Discount Available |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
我們不會詳細討論這些資料集的有效性或此類表的存在性。然而,很明顯,如果不理解表格和資料項目的含義,則資料無法應用。人們無法將資料應用需求與資料本身連結起來,更不用說討論更複雜的資料操作。
用一個測試NL2SQL的資料集,來說明一下大模型技術在該領域的應用模式。
Spider資料集是多庫、多表、單輪查詢的T2S資料集,被公認為最具挑戰性的大規模跨域評估排行榜。它由耶魯大學於 2018 年提出,並由 11 名耶魯大學學生註釋。此資料集包含一萬一百八十一個自然語言問題和五千六百九十三條SQL語句,涵蓋138個不同領域的200多個資料庫。七千個問題用於培訓,一千三十四個問題用於開發,兩千一百四十七個問題用於測試。換句話說,透過提供問題及其對應的答案 (SQL),大型模型可以學習如何利用資料。為了簡單起見,我們可以將邏輯壓縮如下:
使用這樣的資料集訓練模型後,我們可以提出以下測試問題:
從中我們可以看出,NL2SQL 強調基於語意和上下文理解,並依賴經過訓練的資料集來導出可能的 SQL 查詢。
IntaLink的資料整合不需要使用者提供任何訓練資料。資料之間的關係是透過表間關係分析模型產生的。這種關係的產生不需要理解表和資料項的實際意義,而是透過一組分析資料特徵值的方法來推導表之間的關聯。下面我們用兩個範例表來說明表間關係的建立。
Tab_1
Name | Student_ID | CLASS | Age | Sex |
---|---|---|---|---|
Zhang San | 2021_0001 | 2021_01 | 19 | Male |
Li Si | 2021_0002 | 2021_01 | 18 | Female |
Wang Wu | 2021_0003 | 2021_01 | 19 | Male |
Tab_2
Student_ID | Course | Grade | Rank |
---|---|---|---|
2021_0001 | Math | 135 | 18 |
2021_0001 | Chinese | 110 | 23 |
2021_0002 | Math | 120 | 25 |
2021_0002 | Chinese | 125 | 10 |
在Tab_1中,Student_ID與Tab_2中的Student_ID匹配,具有相同的特徵值。因此,要連結這兩個表,條件 Tab_1.Student_ID = Tab_2.Student_ID 成立。表間連結的分析需要考慮許多因素。在IntaLink中,我們複製資料特徵值記憶體資料庫作為分析工具,並利用一套最佳化的分析方法來產生表間關係分析結果。由於涉及內容比較複雜,這裡不再贅述。單獨的文章會討論實作邏輯。
大模型技術在語意理解和產生內容方面表現出色,而IntaLink在資料關聯分析方面具有優勢,前期工作量較低,準確率較高。理想情況下,可以整合大型模型技術來了解使用者輸入要求,將這些資訊轉換為必要的資料表和項目,然後IntaLink 將為資料集產生這些資料表和項目,然後大型模型產生所需的結果(例如報告、圖表、等)用於使用者簡報。
我們希望您能成為 IntaLink 旅程的一部分!與我們聯繫並為我們的專案做出貢獻:
? GitHub 儲存庫:IntaLink
?加入我們的 Discord 社群
成為開源革命的一部分,幫助我們塑造智慧數據整合的未來!
以上是IntaLink:區別於大型模型的新型 NLL 技術的詳細內容。更多資訊請關注PHP中文網其他相關文章!