Permata Tersembunyi
Semakan Latar Belakang: Dalam artikel sebelumnya, telah disebut bahawa "matlamat IntaLink adalah untuk mencapai pemautan data automatik dalam bidang penyepaduan data." Daripada perbincangan, jelas bahawa IntaLink menangani isu pemautan automatik "data perhubungan dan berbilang jadual."
Sekarang, mari kita bincangkan sama ada isu ini mempunyai senario aplikasi yang luas atau jika ia hanya cadangan pseudo tanpa permintaan praktikal.
Walaupun model besar, platform data besar dan teknologi lain boleh menggunakan pelbagai jenis maklumat, termasuk dokumen, imej, audio dan video, seperti AI generatif multimodal yang mampu menghasilkan video dan memudahkan interaksi suara, hasilnya selalunya terbuka. -berakhir dan subjektif, kadang-kadang membawa kepada "halusinasi." Oleh itu, semasa menggunakannya untuk rujukan atau bantuan boleh diterima, dalam persekitaran kerja yang ketat tertentu, kita tidak boleh bergantung pada maklumat ini atau model besar untuk menyelesaikan tugas. Dalam sektor seperti perbankan, kewangan, pengangkutan, perdagangan, perakaunan, pengeluaran dan tenaga, data perniagaan teras mesti diurus menggunakan data hubungan berstruktur.
(1) Paradigma Reka Bentuk Pangkalan Data Perhubungan memerlukan data dibahagikan secara munasabah untuk mengelakkan lebihan yang ketara. Jika data yang dijana semasa fasa pembinaan mengandungi banyak redundansi, bukan sahaja beban kerja pengumpulan data diduplikasi, tetapi konsistensi data juga sukar untuk dipastikan. Dari perspektif lain, jika semua data berkaitan disimpan dalam satu jadual, tetapi item data datang daripada sumber perniagaan yang berbeza, dengan pengumpul data dan masa penjanaan yang berbeza-beza, mengekalkan rekod data tersebut menjadi mustahil. Oleh itu, pembinaan data sememangnya akan mengatur data berdasarkan orientasi objek dan aktiviti perniagaan, yang membawa kepada pengedarannya merentas jadual yang berbeza.
(2) Data Mesti Berasal daripada Pelbagai Sistem. Memandangkan pembinaan teknologi maklumat tidak disiapkan sekali gus, pasti akan ada urutan perkembangan. Walaupun dalam sistem yang sama, mungkin terdapat variasi dalam garis masa pelaksanaan. Selain itu, senario aplikasi yang berbeza memerlukan pilihan teknologi yang berbeza; contohnya, data perniagaan, data masa nyata dan maklumat log boleh direalisasikan melalui pelbagai teknologi, menjadikan data sememangnya berbilang sumber.
Data perlu disepadukan untuk aplikasi. Permintaan untuk aplikasi integrasi data mempunyai pelbagai kemungkinan. Contohnya, menyepadukan data pengeluaran dan data perancangan boleh menilai status penyiapan rancangan; menyepadukan data pengeluaran dan data jualan boleh mengenal pasti tunggakan produk atau pemenuhan penghantaran pesanan; dan menyepadukan data pengeluaran dengan data kewangan boleh menilai kos pengeluaran dan keuntungan. Oleh itu, penyepaduan data ialah cara paling berkesan untuk memaksimumkan nilai data dan memperkasakan proses perniagaan.
Ringkasnya, aplikasi penyepaduan data hubungan akan kekal sebagai salah satu senario aplikasi data yang paling penting untuk masa yang lama. Selagi senario ini wujud, IntaLink akan mempunyai kebolehsuaian yang luas.
T2SQL (Teks kepada SQL) dan NL2SQL (Bahasa Asli kepada SQL) secara automatik menjana pertanyaan data yang diperlukan melalui teks atau input bahasa semula jadi. Istilah T2SQL dan NL2SQL pada dasarnya menggambarkan konsep yang sama: menggunakan teknologi AI untuk mengubah pemahaman semantik kepada kaedah operasi data, yang merupakan idea yang sama tetapi dengan istilah yang berbeza. Ini adalah hala tuju penyelidikan dalam aplikasi data. Dalam beberapa tahun kebelakangan ini, dengan kemunculan teknologi model besar, bidang ini telah melihat kemajuan yang ketara. Saya telah meneliti laporan teknikal daripada Alibaba dan Tencent dan mencuba projek sumber terbuka seperti DB-GPT. Teknologi ini sebahagian besarnya serupa, sekurang-kurangnya dalam logik teknikal asasnya, manakala pendekatan IntaLink adalah berbeza sama sekali.
Mari kita ketepikan logik teknikal yang mendasari buat masa ini dan jalankan analisis perbandingan berdasarkan kaedah pelaksanaan:
Andaikan kita mempunyai set jadual bernama T1, T2, ..., Tn, setiap satu mengandungi beberapa item data berlabel C1, C2, ..., Cn, dengan bilangan item yang berbeza-beza bagi setiap jadual. Pertimbangkan set data simulasi untuk jadual T1 seperti berikut:
C1 | C2 | C3 | C4 | C5 | C6 |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
Dari kandungan ini sahaja, kami tidak dapat memperoleh sebarang maklumat yang berguna. Kami kurang jelas tentang maksud data di atas. Mari kita simulasi dua makna untuk data:
Fruit Type | Warehouse No. | Shelf No. | Stock | Shelf Life | Warehouse Manager ID |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
Hotel Name | Warehouse Hotness Ranking | Star Rating | Years in Business | Remaining Rooms | Discount Available |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
Kami tidak akan memikirkan kesahihan set data ini atau kewujudan jadual sedemikian. Walau bagaimanapun, adalah jelas bahawa tanpa memahami maksud jadual dan item data, data tidak boleh digunakan. Seseorang tidak boleh memautkan keperluan aplikasi data kepada data itu sendiri, apatah lagi membincangkan operasi data yang lebih kompleks.
Menggunakan set data untuk menguji NL2SQL, mari kita menggambarkan corak aplikasi teknologi model besar dalam bidang ini.
Dataset Spider ialah set data T2S untuk pertanyaan berbilang pangkalan data, berbilang jadual, pusingan tunggal dan diiktiraf sebagai papan pendahulu penilaian merentas domain berskala besar yang paling mencabar. Ia telah dicadangkan oleh Universiti Yale pada tahun 2018, dijelaskan oleh sebelas pelajar Yale. Set data mengandungi sepuluh ribu seratus lapan puluh satu soalan bahasa semula jadi dan lima ribu enam ratus sembilan puluh tiga pernyataan SQL, meliputi lebih dua ratus pangkalan data merentas seratus tiga puluh lapan domain yang berbeza. Tujuh ribu soalan digunakan untuk latihan, seribu tiga puluh empat untuk pembangunan, dan dua ribu seratus empat puluh tujuh untuk ujian. Dalam erti kata lain, dengan menyediakan soalan bersama-sama dengan jawapan yang sepadan (SQL), model besar belajar untuk menggunakan data. Untuk memudahkan, kita boleh memendekkan logik seperti berikut:
Selepas melatih model dengan set data sedemikian, kami boleh mengemukakan soalan ujian berikut:
Daripada ini, kami melihat bahawa NL2SQL menekankan untuk mendapatkan pertanyaan SQL yang mungkin berdasarkan pemahaman semantik dan kontekstual, bergantung pada set data terlatih.
Penyepaduan data IntaLink tidak memerlukan pengguna menyediakan sebarang data latihan. Hubungan antara data dijana melalui model analisis hubungan antara jadual. Penjanaan perhubungan ini tidak memerlukan pemahaman tentang kepentingan sebenar jadual dan item data tetapi diperoleh melalui satu set kaedah yang menganalisis nilai ciri data untuk menyimpulkan perkaitan antara jadual. Di bawah, kami menggambarkan penubuhan perhubungan antara jadual menggunakan dua jadual sampel.
Tab_1
Name | Student_ID | CLASS | Age | Sex |
---|---|---|---|---|
Zhang San | 2021_0001 | 2021_01 | 19 | Male |
Li Si | 2021_0002 | 2021_01 | 18 | Female |
Wang Wu | 2021_0003 | 2021_01 | 19 | Male |
Tab_2
Student_ID | Course | Grade | Rank |
---|---|---|---|
2021_0001 | Math | 135 | 18 |
2021_0001 | Chinese | 110 | 23 |
2021_0002 | Math | 120 | 25 |
2021_0002 | Chinese | 125 | 10 |
Dalam Tab_1, Student_ID sepadan dengan Student_ID dalam Tab_2, berkongsi nilai ciri yang sama. Oleh itu, untuk memautkan kedua-dua jadual ini, syarat Tab_1.Student_ID = Tab_2.Student_ID adalah benar. Analisis hubungan antara jadual ini memerlukan pertimbangan pelbagai faktor. Dalam IntaLink, kami mereplikasi pangkalan data memori nilai ciri data sebagai alat analisis, menggunakan satu set kaedah analisis yang dioptimumkan untuk menghasilkan keputusan analisis hubungan antara jadual. Disebabkan kerumitan kandungan yang terlibat, kami tidak akan menghuraikan lebih lanjut di sini. Artikel berasingan akan membincangkan logik pelaksanaan.
Teknologi model besar cemerlang dalam pemahaman semantik dan kandungan generatif, manakala IntaLink mempunyai kelebihan dalam analisis perkaitan data dengan beban kerja awal yang lebih rendah dan ketepatan yang lebih tinggi. Sebaik-baiknya, teknologi model besar boleh disepadukan untuk memahami keperluan input pengguna, menukar maklumat tersebut ke dalam jadual dan item data yang diperlukan, yang kemudian akan dijana oleh IntaLink untuk set data, diikuti oleh model besar yang menjana hasil yang diingini (cth., laporan, carta, dll.) untuk persembahan pengguna.
Kami ingin anda menjadi sebahagian daripada perjalanan IntaLink! Berhubung dengan kami dan menyumbang kepada projek kami:
? Repositori GitHub: IntaLink
? Sertai Komuniti Discord kami
Jadilah sebahagian daripada revolusi sumber terbuka dan bantu kami membentuk masa depan penyepaduan data pintar!
Atas ialah kandungan terperinci IntaLink: Teknologi NLL Baharu yang Berbeza daripada Model Besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!