


Tiada anotasi manual diperlukan! LLM menyokong pembelajaran pembenaman teks: menyokong 100 bahasa dengan mudah dan menyesuaikan diri dengan ratusan ribu tugas hiliran
Pembenaman teks (pembenaman perkataan) ialah teknologi asas dalam bidang pemprosesan bahasa semula jadi (NLP) Ia boleh memetakan teks kepada ruang semantik dan menukarnya kepada perwakilan vektor padat. Kaedah ini telah digunakan secara meluas dalam pelbagai tugas NLP, termasuk mendapatkan maklumat (IR), menjawab soalan, pengiraan persamaan teks dan sistem pengesyoran. Melalui pembenaman teks, kita boleh lebih memahami maksud dan hubungan teks, seterusnya meningkatkan keberkesanan tugas NLP.
Dalam bidang pencarian maklumat (IR), peringkat pertama perolehan biasanya menggunakan pembenaman teks untuk pengiraan persamaan. Ia berfungsi dengan memanggil semula set kecil dokumen calon dalam korpus berskala besar dan kemudian melakukan pengiraan yang terperinci. Pengambilan semula berasaskan benam juga merupakan komponen penting dalam Penjanaan Pengukuhan Pengambilan (RAG). Ia membolehkan model bahasa besar (LLM) mengakses pengetahuan luaran dinamik tanpa mengubah suai parameter model. Dengan cara ini, sistem IR boleh menggunakan pembenaman teks dan pengetahuan luaran dengan lebih baik untuk meningkatkan hasil perolehan semula.
Walaupun kaedah pembelajaran pembenaman teks awal seperti word2vec dan GloVe digunakan secara meluas, ciri statiknya mengehadkan keupayaan untuk menangkap maklumat kontekstual yang kaya dalam bahasa semula jadi. Walau bagaimanapun, dengan peningkatan model bahasa pra-latihan, beberapa kaedah baharu seperti Sentence-BERT dan SimCSE telah mencapai kemajuan ketara pada set data inferens bahasa semula jadi (NLI) dengan memperhalusi BERT untuk mempelajari pembenaman teks. Kaedah-kaedah ini memanfaatkan keupayaan sedar konteks BERT untuk lebih memahami semantik dan konteks teks, sekali gus meningkatkan kualiti dan ekspresif benam teks. Melalui gabungan pra-latihan dan penalaan halus, kaedah ini boleh mempelajari maklumat semantik yang lebih kaya daripada korpora berskala besar untuk pemprosesan bahasa semula jadi
Untuk meningkatkan prestasi dan keteguhan pembenaman teks, kaedah lanjutan seperti E5 dan BGE Berbilang peringkat latihan telah digunakan. Mereka mula-mula dilatih terlebih dahulu mengenai berbilion-bilion pasangan teks yang diselia dengan lemah dan kemudian diperhalusi pada beberapa set data beranotasi. Strategi ini boleh meningkatkan prestasi pembenaman teks dengan berkesan.
Kaedah pelbagai peringkat sedia ada masih mempunyai dua kelemahan:
1. Membina saluran paip latihan pelbagai peringkat yang kompleks memerlukan banyak kerja kejuruteraan untuk menguruskan pasangan korelasi yang banyak.
2. Penalaan halus bergantung pada set data yang dikumpulkan secara manual, yang selalunya dihadkan oleh kepelbagaian tugas dan liputan bahasa.
Kebanyakan kaedah menggunakan pengekod gaya BERT dan mengabaikan kemajuan latihan LLM yang lebih baik dan teknik berkaitan.
Pasukan penyelidik Microsoft baru-baru ini mencadangkan kaedah latihan pembenaman teks yang mudah dan cekap untuk mengatasi beberapa kelemahan kaedah sebelumnya. Pendekatan ini tidak memerlukan reka bentuk saluran paip yang kompleks atau set data yang dibina secara manual, tetapi memanfaatkan LLM untuk mensintesis data teks yang pelbagai. Dengan pendekatan ini, mereka dapat menjana pembenaman teks berkualiti tinggi untuk ratusan ribu tugas pembenaman teks dalam hampir 100 bahasa, manakala keseluruhan proses latihan mengambil masa kurang daripada 1,000 langkah.
Pautan kertas: https://arxiv.org/abs/2401.00368
Secara khusus, penyelidik menggunakan dua langkah menggesa kumpulan tugasan LLM, dan mula-mula menggesa strategi calon menggesa LLM menjana data untuk tugasan yang diberikan daripada kumpulan.
Untuk merangkumi senario aplikasi yang berbeza, para penyelidik mereka bentuk berbilang templat segera untuk setiap jenis tugasan dan menggabungkan data yang dijana oleh templat yang berbeza untuk meningkatkan kepelbagaian.
Hasil eksperimen membuktikan bahawa apabila memperhalusi "hanya data sintetik", Mistral-7B mencapai prestasi yang sangat kompetitif pada penanda aras BEIR dan MTEB apabila memperhalusi kedua-dua data sintetik dan beranotasi ditambah, Mencapai prestasi sota.
Gunakan model besar untuk memperbaik pembenaman teks
1. Penjanaan data sintetik
Menggunakan model bahasa besar (LLM) terkini seperti GPT-4 untuk mensintesis data semakin mendapat perhatian , yang boleh meningkatkan model dalam kepelbagaian keupayaan berbilang tugas dan berbilang bahasa, yang kemudiannya boleh melatih pembenaman teks yang lebih mantap yang berfungsi dengan baik dalam pelbagai tugas hiliran (seperti perolehan semula semantik, pengiraan persamaan teks, pengelompokan).
Untuk menjana data sintetik yang pelbagai, para penyelidik mencadangkan taksonomi mudah yang mula-mula mengklasifikasikan tugasan benam dan kemudian menggunakan templat segera yang berbeza untuk setiap jenis tugas.
Tugas Asimetri
Termasuk tugas yang pertanyaan dan dokumen berkaitan secara semantik tetapi tidak menghuraikan satu sama lain.
Berdasarkan panjang pertanyaan dan dokumen, penyelidik membahagikan lagi tugas asimetri kepada empat subkategori: padanan pendek-panjang (pertanyaan pendek dan dokumen panjang, senario tipikal dalam enjin carian komersial), padanan panjang-pendek, pendek -Perlawanan pendek dan perlawanan panjang-panjang.
Untuk setiap subkategori, para penyelidik mereka bentuk templat gesaan dua langkah, mula-mula menggesa LLM untuk membuat sumbang saran senarai tugas, dan kemudian menghasilkan contoh khusus bagi syarat yang ditentukan tugasan kebanyakannya adalah koheren; Kualitinya sangat tinggi.
Dalam percubaan awal, para penyelidik juga cuba menggunakan satu gesaan untuk menjana takrifan tugas dan pasangan dokumen pertanyaan, tetapi kepelbagaian data tidak sebaik kaedah dua langkah yang dinyatakan di atas.
Tugas simetri
terutamanya termasuk pertanyaan dan dokumen dengan semantik yang serupa tetapi bentuk permukaan yang berbeza.
Dua senario aplikasi dikaji dalam artikel ini: persamaan teks semantik eka bahasa (STS) dan perolehan dwi-teks, dan dua templat segera yang berbeza direka untuk setiap senario, disesuaikan mengikut matlamat khusus mereka sejak takrifan tugasan adalah agak mudah, langkah sumbang saran boleh ditinggalkan.
Untuk meningkatkan lagi kepelbagaian kata gesaan dan mempertingkatkan kepelbagaian data sintetik, penyelidik menambahkan beberapa ruang letak pada setiap papan gesaan dan mengambil sampel secara rawak pada masa jalanan Contohnya, "{query_length}" mewakili daripada Sampel daripada set "{kurang daripada 5 perkataan, 5-10 perkataan, sekurang-kurangnya 10 perkataan}".
Untuk menjana data berbilang bahasa, penyelidik mengambil sampel nilai "{language}" daripada senarai bahasa XLM-R, memberikan lebih berat kepada bahasa sumber tinggi yang tidak mematuhi yang dipratakrifkan; Format JSON akan Dibuang semasa penghuraian juga dialih keluar berdasarkan padanan rentetan yang tepat.
2 Latihan
Memandangkan pasangan dokumen pertanyaan yang berkaitan, gunakan pertanyaan asal q+ untuk menjana arahan baharu q_inst, dengan "{task_definition}" ialah pemegang tempat untuk membenamkan perihalan satu ayat bagi simbol tugas.
Untuk data sintetik yang dijana, output langkah sumbang saran digunakan untuk set data lain, seperti MS-MARCO, penyelidik mencipta definisi tugas secara manual dan menggunakannya pada semua pertanyaan dalam set data tanpa mengubah suai fail; Sebarang awalan perintah di hujungnya.
Dengan cara ini indeks dokumen diprabina dan tugasan yang perlu dilaksanakan boleh disesuaikan dengan menukar hanya bahagian pertanyaan.
Memandangkan LLM pra-latihan, tambahkan token [EOS] pada penghujung pertanyaan dan dokumen, dan kemudian masukkannya ke dalam LLM untuk mendapatkan pertanyaan dan pembenaman dokumen dengan mendapatkan vektor lapisan terakhir [EOS].
Kemudian gunakan kerugian InfoNCE standard untuk mengira kerugian bagi negatif intra-batch dan negatif keras.
di mana ℕ mewakili set semua negatif, digunakan untuk mengira skor padanan antara pertanyaan dan dokumen, t ialah hiperparameter suhu, ditetapkan pada 0.02 dalam eksperimen
Hasil Eksperimen , yang menggunakan sejumlah 180 juta token.

Dari segi kualiti data, penyelidik mendapati bahawa beberapa output GPT-3.5-Turbo tidak mengikut garis panduan yang dinyatakan dalam templat segera, tetapi walaupun demikian, kualiti keseluruhan masih boleh diterima dan awalan. eksperimen juga membuktikan bahawa menggunakan ini Manfaat subset data.
Penalaan halus dan penilaian model
Para penyelidik menggunakan kerugian di atas untuk memperhalusi Mistral-7B yang telah dilatih untuk 1 zaman, mengikuti kaedah latihan RankLLaMA, dan menggunakan LoRA dengan pangkat .
Untuk mengurangkan lagi keperluan memori GPU, teknologi seperti titik semakan kecerunan, latihan ketepatan campuran dan DeepSpeed ZeRO-3 digunakan.
Dari segi data latihan, kedua-dua data sintetik yang dijana dan 13 set data awam telah digunakan, menghasilkan kira-kira 1.8 juta contoh selepas pensampelan.
Untuk perbandingan yang adil dengan beberapa kerja terdahulu, penyelidik juga melaporkan hasil apabila satu-satunya penyeliaan anotasi ialah set data kedudukan bab MS-MARCO, dan juga menilai model pada penanda aras MTEB.
Keputusan utama
Seperti yang anda lihat dalam jadual di bawah, model "E5mistral-7B + data penuh" yang diperolehi dalam artikel mencapai skor purata tertinggi dalam penanda aras MTEB, iaitu 2.4 lebih tinggi daripada sebelumnya. titik model paling maju.
Dalam tetapan "dengan data sintetik sahaja", tiada data beranotasi digunakan untuk latihan, tetapi prestasinya masih sangat kompetitif.

Para penyelidik juga membandingkan beberapa model pembenaman teks komersial, tetapi kekurangan ketelusan dan dokumentasi model ini menghalang perbandingan yang adil.
Walau bagaimanapun, ia dapat dilihat daripada hasil perbandingan prestasi perolehan pada penanda aras BEIR bahawa model terlatih itu adalah lebih baik daripada model komersial semasa secara besar-besaran.

Penemuan semula berbilang bahasa
Untuk menilai keupayaan pelbagai bahasa model, penyelidik menjalankan penilaian ke atas set data MIRACL yang mengandungi pertanyaan dan 18 bahasa penghakiman manusia.
Hasilnya menunjukkan bahawa model itu mengatasi mE5-besar dalam bahasa sumber tinggi, terutamanya dalam bahasa Inggeris, dan prestasinya lebih baik, walau bagaimanapun, untuk bahasa sumber rendah, model itu masih tidak sesuai berbanding dengan asas mE5 .
Para penyelidik mengaitkan ini dengan Mistral-7B yang telah dilatih terutamanya pada data bahasa Inggeris, kaedah yang boleh digunakan oleh model berbilang bahasa ramalan untuk merapatkan jurang ini.



Atas ialah kandungan terperinci Tiada anotasi manual diperlukan! LLM menyokong pembelajaran pembenaman teks: menyokong 100 bahasa dengan mudah dan menyesuaikan diri dengan ratusan ribu tugas hiliran. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,
