Apabila "War of the Gods" bermula dalam model berskala besar, masalah maut timbul yang membuatkan pengguna yang mencubanya tidak tertanggung. Terdapat masalah biasa dalam banyak model berskala besar, iaitu "serius bercakap karut". Jadi, bagaimanakah anda menjadikan model besar lebih tepat, lebih pintar dan kurang omong kosong? Selain rangka kerja model, data dan algoritma, terdapat juga aplikasi utama, dan itu adalah pangkalan data vektor!
Di belakang pusat data
Terdapat banyak tafsiran berbeza tentang hubungan antara pangkalan data vektor dan model besar serta kepentingannya. Cara yang lebih jelas untuk mengatakannya ialah jika model besar dibandingkan dengan otak yang mudah dilupakan, maka pangkalan data vektor adalah bersamaan dengan "hippocampus" di dalamnya, yang bertanggungjawab terutamanya untuk fungsi seperti penyimpanan dan ingatan arah. . Dari sudut anatomi, jika hippocampus seseorang dibuang, orang itu akan kehilangan keupayaan untuk ingatan jangka panjang dan tidak dapat melihat maklumat seperti bunyi, cahaya, rasa, dll.
Secara terang-terangan, sebab asas mengapa model besar mempunyai halusinasi adalah kerana pangkalan data vektor model besar tidak cukup kuat Akibatnya, model besar hanya boleh mencari jawapan daripada data yang telah ditetapkan , yang sangat mempengaruhi pengalaman. Oleh itu, sama ada model besar itu pintar atau tidak bergantung pada sama ada pangkalan data vektor berkuasa Ini juga merupakan sebab asas mengapa Tencent Cloud memfokuskan pada pangkalan data vektor untuk membina "pusat data" AGI.
Sesetengah orang mungkin berfikir: Jika saya meningkatkan keupayaan penjadualan data di peringkat pusat data, bolehkah pangkalan data hubungan tradisional turut menyokongnya? Tetapi realitinya ialah apabila perusahaan membina dan menggunakan model besar, mereka perlu menyambungkan data besar-besaran kepada model besar terlebih dahulu dengan selamat dan cekap Di antara banyak data yang kompleks, hanya 20% yang sesuai untuk pangkalan data hubungan dan baki 80% adalah data berstruktur. Semuanya adalah data tidak berstruktur seperti teks, imej, video dan audio. Pangkalan data vektor boleh memproses data tidak berstruktur yang kompleks ke dalam nilai koordinat logik berbilang dimensi dan menyambungkannya kepada model besar Kecekapan pemprosesan data adalah 10 kali lebih tinggi daripada pangkalan data tradisional.
Pada masa yang sama, pangkalan data vektor juga boleh digunakan sebagai pangkalan pengetahuan luaran untuk menyampaikan maklumat terkini, paling tepat dan komprehensif kepada model besar, bertindak balas dengan cekap kepada soalan dan jawapan masa nyata, dan membolehkan model besar mempunyai masa yang panjang. -memori jangka untuk mengelakkan pemecahan semasa berbual. Dengan cara ini, lebih mudah untuk memahami bahawa pangkalan data vektor dan model besar adalah rakan kongsi terbaik.
Pangkalan data vektor profesional VS pemalam vektor pangkalan data tradisional
Malah, dengan pangkalan data vektor sebagai landasan utama di sebalik model besar, syarikat terkemuka sudah pun dalam perjalanan inovasi. Menurut perangkaan awal, sudah ada lebih daripada 50 pengeluar yang bekerja pada pangkalan data vektor. Daripada laluan teknikal khusus, ia dibahagikan kepada dua kategori: satu ialah pangkalan data asli vektor profesional, yang telah direka bentuk untuk vektor sejak kelahirannya dan boleh menyimpan, membuka kunci, dan menanyakan struktur data vektor; pemalam vektor telah ditambahkan untuk membolehkan perolehan semula vektor.
Analisis perbandingan menunjukkan bahawa kedua-dua kaedah mempunyai senario aplikasinya sendiri Contohnya, apabila syarikat baru bermula dan jumlah data tidak besar dan anda tidak mahu memperkenalkan pangkalan data baharu, anda boleh memilih pangkalan data tradisional + palam vektor. -dalam kaedah. Tetapi jika perusahaan mempunyai jumlah data yang besar, ingin membina model besar yang lebih pintar, dan mempunyai keperluan yang lebih tinggi untuk prestasi dan pembangunan masa depan, maka memilih produk pangkalan data vektor profesional seperti Tencent Cloud jelas akan lebih sesuai.
Dari perspektif aplikasi pangkalan data vektor, masih terdapat lebih banyak potensi. Pada masa ini, banyak syarikat menggunakan pangkalan data vektor untuk menangani kelemahan seperti ilusi model besar dan peningkatan pengetahuan. Walau bagaimanapun, pembangunan masa depan tidak terhad kepada keupayaan ini, tetapi juga boleh mencapai prestasi yang lebih baik dalam pertanyaan imej. Contohnya, anda boleh menanyakan foto pada telefon anda, serupa dengan enjin carian imej, yang sebenarnya merupakan pertanyaan vektor
Pangkalan data vektor profesional tidak boleh menggantikan pangkalan data tradisional, terutamanya dalam senario berskala besar. Pangkalan data hubungan tradisional dan pangkalan data vektor boleh dibangunkan secara kolaboratif dan saling melengkapi. Pangkalan data vektor menggunakan data bervektor untuk memenuhi keperluan data berskala besar, mendapatkan semula konkurensi tinggi kependaman rendah, padanan kabur dan medan lain yang sukar dikendalikan dengan pangkalan data hubungan tradisional. Pangkalan data vektor hanya menyokong jenis data baharu dan tidak menyimpan data asal, manakala pangkalan data tradisional menyokong jenis data tradisional seperti nilai berangka, rentetan dan masa. Skala data yang disokong oleh pangkalan data tradisional agak kecil, dan hanya boleh menyokong sehingga 100 juta keping data, manakala pangkalan data vektor boleh menyokong data berskala besar, dengan garis bawahnya ialah 100 bilion keping data. Kaedah pertanyaan pangkalan data tradisional ialah carian tepat, yang sama ada memenuhi syarat atau tidak memenuhi syarat manakala pangkalan data vektor menggunakan carian anggaran, di mana struktur pertanyaan dan keadaan input mestilah sama yang mungkin, dan keperluan untuk kuasa pengkomputeran adalah; juga lebih tinggi. Aplikasi lapisan atas boleh menggunakan pendekatan API bersatu, yang lebih sesuai untuk penggunaan dan penggunaan aplikasi kecerdasan buatan berskala besar
Evolusi pintar
Model besar tidak bermula dari awal, begitu juga pangkalan data vektor. Jadi, bagaimana pangkalan data vektor berkembang? Pasukan Pangkalan Data Awan Tencent pernah berfikir secara mendalam!
Luo Yun, timbalan pengurus besar Tencent Cloud Database, percaya bahawa intipati model besar tidak seharusnya menjadi badan storan yang tidak terhingga besar, tetapi platform dengan keupayaan pengkomputeran pintar, menggunakan keupayaan pengkomputeran asas yang sebelum ini hanya boleh diakses melalui bahasa pengaturcaraan . Sambil teruja, saya sekali lagi berfikir dengan tenang Dalam proses manusia melengkapkan transformasi digital, selain platform pengkomputeran, adakah terdapat kemungkinan lain? Apakah sebenarnya teras teknikal era AGI? Secara ringkasnya, didapati bahawa peredaran pintar data asas adalah kunci emas untuk memanfaatkan pusat data!
Pada masa kini, apabila perusahaan mempunyai keupayaan pengkomputeran pintar am, data asas boleh mengalir dengan cepat Kami boleh menyimpan fail dalam sistem fail, dan kami boleh memanggil data jadual dalam pangkalan data hubungan, data KV dalam pangkalan data bukan hubungan, dll. Data boleh. diedarkan dan dikaitkan dengan cara yang bijak. Tetapi jika anda mahu data untuk bercakap dengan manusia, ia tidak mencukupi untuk mempunyai platform pengkomputeran Anda juga memerlukan platform data pintar yang boleh menggunakan bahasa semula jadi untuk mengekstrak data dan kemudian menyerahkannya kepada model besar untuk dikira matlamat ini, pangkalan data vektor Ia menjadi hab penting.
Memandangkan pangkalan data vektor sangat penting, bagaimanakah kita harus bercakap dengan platform data berdasarkan pengalaman pangkalan data tradisional melalui peningkatan pintar? Inilah keistimewaan Tencent Cloud Database! Pada Sidang Kemuncak Teknologi Pangkalan Data Vektor Awan Tencent, Tencent Cloud mengumumkan bahawa ia telah menyelesaikan ujian dengan kerjasama organisasi pihak ketiga, membuktikan bahawa Pangkalan Data Vektor Awan Tencent boleh menyokong ratusan bilion data dan meningkatkan kadar pertanyaan sesaat dengan ketara, mencapai 5 juta kapasiti puncak
Pada masa ini, Tencent Cloud Vector Database sudah mempunyai sejumlah besar pengguna, termasuk syarikat seperti Baichuan Intelligence, TAL dan SalesEasy. Baru-baru ini, mereka membuat rancangan pelancaran AGI dengan Baichuan, memberikan 4 juta Token contoh pangkalan data vektor dan model besar Baichuan2.
Melalui teknologi teras seperti Pembenaman, pengindeksan vektor, seni bina sistem teragih dan pecutan perkakasan, Pangkalan Data Vektor Awan Tencent boleh menyelesaikan masalah tertentu secara berkesan dalam teks, imej, video, termasuk biofarmaseutikal, kawalan risiko, audio, berbilang modal dan senario luas lain . Contohnya: gunakan teknologi Benamkan untuk memetakan data berdimensi tinggi (seperti teks, gambar, audio) ke ruang berdimensi rendah, iaitu, menukar gambar, bunyi dan teks kepada vektor untuk mewakilinya dan menyimpan vektor ini untuk membentuk vektor pangkalan data untuk merealisasikan Kaedah proses Pembenaman termasuk rangkaian saraf, LSH (algoritma hashing sensitif setempat), dsb.
Tencent telah komited untuk meningkatkan keupayaan pangkalan data vektor sejak 2019, menerajui perniagaan perusahaan ke era AGI. Sehingga kini, Tencent Cloud telah menyediakan perkhidmatan kepada lebih 40 pelanggan dalaman, menyokong lebih daripada 160 bilion pengambilan data vektor setiap hari. Pada masa yang sama, Tencent Cloud juga menyediakan perkhidmatan kepada 1,000 pelanggan luar, dan kadar pertumbuhannya menakjubkan
Melihat masa depan, AGI sedang mempercepatkan evolusinya, yang membawa kejutan dan cabaran. Pangkalan Data Awan Tencent akan terus meneroka dan menerajui inovasi seperti biasa. "Road to AGI, Together on the Path" - ayat ini dengan sempurna meringkaskan status semasa pasukan teknikal Tencent Cloud!
Atas ialah kandungan terperinci Beratus-ratus bilion pangkalan data vektor berskala ultra besar sedang mempercepatkan evolusi AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!