IntaLink: Teknologi NLL Baharu yang Berbeza daripada Model Besar-javaTutorial-php.cn

IntaLink: A New NLL Technology Distinct from Large Models

IntaLink: Teknologi NL2SQL Baharu yang Berbeza daripada Model Besar

Permata Tersembunyi

Senario Aplikasi Luas IntaLink

Semakan Latar Belakang: Dalam artikel sebelumnya, telah disebut bahawa "matlamat IntaLink adalah untuk mencapai pemautan data automatik dalam bidang penyepaduan data." Daripada perbincangan, jelas bahawa IntaLink menangani isu pemautan automatik "data perhubungan dan berbilang jadual."

Sekarang, mari kita bincangkan sama ada isu ini mempunyai senario aplikasi yang luas atau jika ia hanya cadangan pseudo tanpa permintaan praktikal.

01 Data Perhubungan Kekal Salah satu Aset Data Paling Penting

Walaupun model besar, platform data besar dan teknologi lain boleh menggunakan pelbagai jenis maklumat, termasuk dokumen, imej, audio dan video, seperti AI generatif multimodal yang mampu menghasilkan video dan memudahkan interaksi suara, hasilnya selalunya terbuka. -berakhir dan subjektif, kadang-kadang membawa kepada "halusinasi." Oleh itu, semasa menggunakannya untuk rujukan atau bantuan boleh diterima, dalam persekitaran kerja yang ketat tertentu, kita tidak boleh bergantung pada maklumat ini atau model besar untuk menyelesaikan tugas. Dalam sektor seperti perbankan, kewangan, pengangkutan, perdagangan, perakaunan, pengeluaran dan tenaga, data perniagaan teras mesti diurus menggunakan data hubungan berstruktur.

02 Pembinaan Data Tidak Dapat Dielakkan dan Diedarkan

(1) Paradigma Reka Bentuk Pangkalan Data Perhubungan memerlukan data dibahagikan secara munasabah untuk mengelakkan lebihan yang ketara. Jika data yang dijana semasa fasa pembinaan mengandungi banyak redundansi, bukan sahaja beban kerja pengumpulan data diduplikasi, tetapi konsistensi data juga sukar untuk dipastikan. Dari perspektif lain, jika semua data berkaitan disimpan dalam satu jadual, tetapi item data datang daripada sumber perniagaan yang berbeza, dengan pengumpul data dan masa penjanaan yang berbeza-beza, mengekalkan rekod data tersebut menjadi mustahil. Oleh itu, pembinaan data sememangnya akan mengatur data berdasarkan orientasi objek dan aktiviti perniagaan, yang membawa kepada pengedarannya merentas jadual yang berbeza.
(2) Data Mesti Berasal daripada Pelbagai Sistem. Memandangkan pembinaan teknologi maklumat tidak disiapkan sekali gus, pasti akan ada urutan perkembangan. Walaupun dalam sistem yang sama, mungkin terdapat variasi dalam garis masa pelaksanaan. Selain itu, senario aplikasi yang berbeza memerlukan pilihan teknologi yang berbeza; contohnya, data perniagaan, data masa nyata dan maklumat log boleh direalisasikan melalui pelbagai teknologi, menjadikan data sememangnya berbilang sumber.

03 Integrasi ialah Cara Paling Berkesan untuk Membuka Kunci Nilai Data

Data perlu disepadukan untuk aplikasi. Permintaan untuk aplikasi integrasi data mempunyai pelbagai kemungkinan. Contohnya, menyepadukan data pengeluaran dan data perancangan boleh menilai status penyiapan rancangan; menyepadukan data pengeluaran dan data jualan boleh mengenal pasti tunggakan produk atau pemenuhan penghantaran pesanan; dan menyepadukan data pengeluaran dengan data kewangan boleh menilai kos pengeluaran dan keuntungan. Oleh itu, penyepaduan data ialah cara paling berkesan untuk memaksimumkan nilai data dan memperkasakan proses perniagaan.

Ringkasnya, aplikasi penyepaduan data hubungan akan kekal sebagai salah satu senario aplikasi data yang paling penting untuk masa yang lama. Selagi senario ini wujud, IntaLink akan mempunyai kebolehsuaian yang luas.

Perbandingan Kaedah Integrasi Data IntaLink dan Model Besar

T2SQL (Teks kepada SQL) dan NL2SQL (Bahasa Asli kepada SQL) secara automatik menjana pertanyaan data yang diperlukan melalui teks atau input bahasa semula jadi. Istilah T2SQL dan NL2SQL pada dasarnya menggambarkan konsep yang sama: menggunakan teknologi AI untuk mengubah pemahaman semantik kepada kaedah operasi data, yang merupakan idea yang sama tetapi dengan istilah yang berbeza. Ini adalah hala tuju penyelidikan dalam aplikasi data. Dalam beberapa tahun kebelakangan ini, dengan kemunculan teknologi model besar, bidang ini telah melihat kemajuan yang ketara. Saya telah meneliti laporan teknikal daripada Alibaba dan Tencent dan mencuba projek sumber terbuka seperti DB-GPT. Teknologi ini sebahagian besarnya serupa, sekurang-kurangnya dalam logik teknikal asasnya, manakala pendekatan IntaLink adalah berbeza sama sekali.

Mari kita ketepikan logik teknikal yang mendasari buat masa ini dan jalankan analisis perbandingan berdasarkan kaedah pelaksanaan:

1. Menggunakan Teknologi Model Besar untuk Pertanyaan Data Automatik Memerlukan Latihan Data

Andaikan kita mempunyai set jadual bernama T1, T2, ..., Tn, setiap satu mengandungi beberapa item data berlabel C1, C2, ..., Cn, dengan bilangan item yang berbeza-beza bagi setiap jadual. Pertimbangkan set data simulasi untuk jadual T1 seperti berikut:

C1	C2	C3	C4	C5	C6
Orange	5	3	3	2	1

Dari kandungan ini sahaja, kami tidak dapat memperoleh sebarang maklumat yang berguna. Kami kurang jelas tentang maksud data di atas. Mari kita simulasi dua makna untuk data:

Fruit Type	Warehouse No.	Shelf No.	Stock	Shelf Life	Warehouse Manager ID
Orange	5	3	3	2	1

Hotel Name	Warehouse Hotness Ranking	Star Rating	Years in Business	Remaining Rooms	Discount Available
Orange	5	3	3	2	1

Kami tidak akan memikirkan kesahihan set data ini atau kewujudan jadual sedemikian. Walau bagaimanapun, adalah jelas bahawa tanpa memahami maksud jadual dan item data, data tidak boleh digunakan. Seseorang tidak boleh memautkan keperluan aplikasi data kepada data itu sendiri, apatah lagi membincangkan operasi data yang lebih kompleks.

Menggunakan set data untuk menguji NL2SQL, mari kita menggambarkan corak aplikasi teknologi model besar dalam bidang ini.

Dataset Spider ialah set data T2S untuk pertanyaan berbilang pangkalan data, berbilang jadual, pusingan tunggal dan diiktiraf sebagai papan pendahulu penilaian merentas domain berskala besar yang paling mencabar. Ia telah dicadangkan oleh Universiti Yale pada tahun 2018, dijelaskan oleh sebelas pelajar Yale. Set data mengandungi sepuluh ribu seratus lapan puluh satu soalan bahasa semula jadi dan lima ribu enam ratus sembilan puluh tiga pernyataan SQL, meliputi lebih dua ratus pangkalan data merentas seratus tiga puluh lapan domain yang berbeza. Tujuh ribu soalan digunakan untuk latihan, seribu tiga puluh empat untuk pembangunan, dan dua ribu seratus empat puluh tujuh untuk ujian. Dalam erti kata lain, dengan menyediakan soalan bersama-sama dengan jawapan yang sepadan (SQL), model besar belajar untuk menggunakan data. Untuk memudahkan, kita boleh memendekkan logik seperti berikut:

Soalan 1: Berapa banyak lipstik merah yang ada dalam stok?
Jawapan 1: pilih jumlah dari gudang di mana good_name='lipstick' dan color='red'

Selepas melatih model dengan set data sedemikian, kami boleh mengemukakan soalan ujian berikut:

Soalan Percubaan: Berapa banyak lipstik biru yang ada dalam stok?
Jawapan Output: pilih jumlah dari gudang di mana good_name='lipstick' dan color='blue'

Daripada ini, kami melihat bahawa NL2SQL menekankan untuk mendapatkan pertanyaan SQL yang mungkin berdasarkan pemahaman semantik dan kontekstual, bergantung pada set data terlatih.

Kaedah Penyepaduan Data IntaLink

Penyepaduan data IntaLink tidak memerlukan pengguna menyediakan sebarang data latihan. Hubungan antara data dijana melalui model analisis hubungan antara jadual. Penjanaan perhubungan ini tidak memerlukan pemahaman tentang kepentingan sebenar jadual dan item data tetapi diperoleh melalui satu set kaedah yang menganalisis nilai ciri data untuk menyimpulkan perkaitan antara jadual. Di bawah, kami menggambarkan penubuhan perhubungan antara jadual menggunakan dua jadual sampel.

Tab_1

Name	Student_ID	CLASS	Age	Sex
Zhang San	2021_0001	2021_01	19	Male
Li Si	2021_0002	2021_01	18	Female
Wang Wu	2021_0003	2021_01	19	Male

Tab_2

Student_ID	Course	Grade	Rank
2021_0001	Math	135	18
2021_0001	Chinese	110	23
2021_0002	Math	120	25
2021_0002	Chinese	125	10

Dalam Tab_1, Student_ID sepadan dengan Student_ID dalam Tab_2, berkongsi nilai ciri yang sama. Oleh itu, untuk memautkan kedua-dua jadual ini, syarat Tab_1.Student_ID = Tab_2.Student_ID adalah benar. Analisis hubungan antara jadual ini memerlukan pertimbangan pelbagai faktor. Dalam IntaLink, kami mereplikasi pangkalan data memori nilai ciri data sebagai alat analisis, menggunakan satu set kaedah analisis yang dioptimumkan untuk menghasilkan keputusan analisis hubungan antara jadual. Disebabkan kerumitan kandungan yang terlibat, kami tidak akan menghuraikan lebih lanjut di sini. Artikel berasingan akan membincangkan logik pelaksanaan.

Perbezaan Antara Teknologi IntaLink dan Model Besar dalam Melaksanakan NL2SQL

1) Tidak perlu menyediakan set soalan latihan untuk model besar; sebaliknya, perhubungan diperoleh melalui analisis data. Oleh itu, IntaLink boleh digunakan untuk pelbagai data. Lebih banyak data yang boleh diintegrasikan, lebih besar kelebihannya.
2) Memfokuskan pada penyepaduan data, khususnya penjanaan keadaan hubungan semasa penyepaduan, tanpa menumpukan pada kaedah penggunaan data. Nota: Penyepaduan data membimbangkan mewujudkan perhubungan antara berbilang jadual, manakala kaedah penggunaan data boleh berbeza-beza, seperti penjumlahan, pengiraan, purata, nilai minimum dan maksimum, dsb. NL2SQL memilih kaedah operasi data yang sesuai berdasarkan semantik, seperti SUM, COUNT, AVG, MIN, MAX, dsb.
3) Ketepatan tinggi: Tidak termasuk isu kualiti data, keadaan hubungan yang dijana oleh IntaLink secara teorinya boleh mencapai ketepatan seratus peratus.

Potensi Gabungan Teknologi IntaLink dan Model Besar

Teknologi model besar cemerlang dalam pemahaman semantik dan kandungan generatif, manakala IntaLink mempunyai kelebihan dalam analisis perkaitan data dengan beban kerja awal yang lebih rendah dan ketepatan yang lebih tinggi. Sebaik-baiknya, teknologi model besar boleh disepadukan untuk memahami keperluan input pengguna, menukar maklumat tersebut ke dalam jadual dan item data yang diperlukan, yang kemudian akan dijana oleh IntaLink untuk set data, diikuti oleh model besar yang menjana hasil yang diingini (cth., laporan, carta, dll.) untuk persembahan pengguna.

Sertai Komuniti IntaLink!

Kami ingin anda menjadi sebahagian daripada perjalanan IntaLink! Berhubung dengan kami dan menyumbang kepada projek kami:

? Repositori GitHub: IntaLink

? Sertai Komuniti Discord kami

Jadilah sebahagian daripada revolusi sumber terbuka dan bantu kami membentuk masa depan penyepaduan data pintar!

Atas ialah kandungan terperinci IntaLink: Teknologi NLL Baharu yang Berbeza daripada Model Besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!