Rumah > Peranti teknologi > AI > Perbandingan Gemini Embedding dengan Multilingual-E5-Large & Jina

Perbandingan Gemini Embedding dengan Multilingual-E5-Large & Jina

Christopher Nolan
Lepaskan: 2025-03-20 15:02:13
asal
773 orang telah melayarinya

Gemini Embedding: Model Embedding Teks Berbilang Bahasa di bawah Rangka Kerja Google Gemini

Penyembuhan perkataan adalah penting untuk tugas pemprosesan bahasa semulajadi (NLP) dalam bahasa Hindi, seperti terjemahan mesin, soalan dan jawapan, dan pengambilan maklumat. Lembaran ini menangkap sifat-sifat semantik kata-kata, membolehkan aplikasi NLP yang lebih tepat dan berorientasikan konteks. Memandangkan sejumlah besar penceramah Hindi dan jumlah kandungan bahasa Hindi yang semakin meningkat, embedding berkualiti tinggi adalah penting untuk meningkatkan prestasi NLP dalam bahasa-bahasa ini. Penyembuhan yang disesuaikan secara khusus dapat menyelesaikan ciri -ciri bahasa yang unik dan batasan sumber keluarga bahasa India. Model Embedding Gemini yang baru dikeluarkan mewakili kemajuan yang signifikan dalam membenamkan teks berbilang bahasa, memanfaatkan rangka kerja Gemini AI yang kuat untuk mencapai prestasi terkini dalam lebih dari 100 bahasa.

Model penyembuhan Gemini adalah baik pada tugas -tugas seperti klasifikasi, pengambilan semula dan carian semantik, memberikan kecekapan dan ketepatan yang lebih besar. Dengan menyokong skala input yang lebih besar dan output dimensi yang lebih tinggi, embedding Gemini menyediakan perwakilan teks yang lebih kaya, membolehkannya digunakan secara meluas dalam pelbagai aplikasi.

Objektif pembelajaran

  • Ketahui mengenai penyembuhan Gemini dan integrasinya dengan Gemini LLM.
  • Tutorial praktikal untuk mendapatkan dokumen Hindi menggunakan Gemini Embed.
  • Analisis perbandingan dengan Jina AI Embedding dan Multilingual-E5-besar.
  • Wawasan mengenai keupayaan dan aplikasi pengambilan teks berbilang bahasa.

*Artikel ini diterbitkan sebagai sebahagian daripada *** Blog Sains Data Marathon . ***

Jadual Kandungan

  • Apakah penyembuhan Gemini?
  • Ciri -ciri utama penyembuhan Gemini
  • Senibina Model Terbenam Gemini
  • Perbandingan dengan model penyembuhan berbilang bahasa lain
  • Pengambilan semula menggunakan Gemini Embedding dan dibandingkan dengan Jina Ai Embedding dan Multilingual-E5-Large
    • Langkah 1. Pasang perpustakaan yang diperlukan
    • Langkah 2. Muatkan data
    • Langkah 3. Sekat data
    • Langkah 4. Simpan data dalam pangkalan data vektor
    • Langkah 5. Menanyakan pangkalan data
    • Langkah 6. Bandingkan dengan Jina Ai Embedding
  • Perbandingan output carian tertanam
    • Jelaskan
  • kesimpulannya
  • Soalan yang sering ditanya

Apakah penyembuhan Gemini?

Pada bulan Mac 2025, Google mengeluarkan model teks Embedding Gemini yang baru (Gemini-Embedding-ExP-03-07) yang boleh digunakan dalam API Gemini.

Model embedding maju berasal dari model Gemini, yang dikatakan mewarisi pemahaman Gemini yang mendalam tentang nuansa bahasa dan konteks halus, membolehkannya digunakan secara meluas dalam pelbagai aplikasi. Ia menduduki tempat pertama dalam ranking berbilang bahasa MTEB.

Perbandingan Gemini Embedding dengan Multilingual-E5-Large & Jina

Embedding Gemini mewakili teks sebagai vektor padat di mana input teks dengan semantik yang sama dipetakan ke vektor dalam ruang vektor yang berdekatan antara satu sama lain. Pada masa ini, ia menyokong lebih daripada 100 bahasa, dan embeddingnya boleh digunakan untuk pelbagai tugas seperti pengambilan dan klasifikasi.

Ciri -ciri utama penyembuhan Gemini

  • Keupayaan berbilang bahasa yang kuat : Model ini menunjukkan prestasi cemerlang dalam lebih dari 100 bahasa, bukan sahaja dalam bahasa sumber tinggi seperti bahasa Inggeris, tetapi juga dalam bahasa sumber rendah seperti Assamese dan Macedonian.
  • Memproses sehingga 8000 Tag Input : Keupayaan yang kuat ini membolehkan model untuk mengendalikan dokumen yang panjang atau pertanyaan kompleks tanpa pemotongan, dengan itu mengekalkan konteks dan makna dengan cara yang melampaui banyak model tertanam yang sedia ada.
  • Dimensi output untuk dimensi 3K : Model ini menghasilkan dimensi tertanam sehingga 3072 dan menyokong sub-dimensi seperti 768 dan 1536 untuk pengoptimuman khusus tugas.
  • Prestasi yang mengagumkan : Gemini Embedding menduduki tempat pertama dalam penanda aras embedding teks besar -besaran (MTEB), dengan skor tugas purata 68.32, dengan ketara melampaui pesaing terdekatnya.

Senibina Model Terbenam Gemini

Perbandingan Gemini Embedding dengan Multilingual-E5-Large & Jina

Inti embedding Gemini didasarkan pada seni bina pengubah dan dimulakan dari Gemini LLM. Asas ini memberikan pemahaman yang mendalam tentang struktur bahasa dan semantik untuk model. Model ini menggunakan mekanisme perhatian dua arah untuk memproses urutan input supaya ia dapat mengambil kira konteks penuh perkataan atau frasa ketika menghasilkan embedding.

  1. Urutan input T diproses oleh M (pengubah dengan perhatian bidirectional, diasaskan dari Gemini), mengakibatkan urutan penanda penanda.
  2. Untuk menghasilkan satu penyembuhan yang mewakili semua maklumat dalam input, fungsi penyatuan digunakan.
  3. Akhirnya, unjuran linear digunakan untuk skala embedding ke dimensi sasaran, mengakibatkan penanaman output akhir.

Fungsi Kerugian : Model Embedding Gemini dilatih menggunakan kerugian anggaran perbandingan bunyi (NCE) dengan contoh negatif dalam batch. Kehilangan sebenar akan berbeza -beza sedikit bergantung pada fasa latihan. Secara umumnya, contoh latihan termasuk pertanyaan, sasaran positif, dan (pilihan) sasaran yang sukar.

Strategi latihan

  1. Pra-Penalaan : Pada peringkat ini, model dilatih pada dataset pelbagai pelbagai yang mengandungi pasangan sasaran pertanyaan. Pendedahan ini menyesuaikan parameter model bahasa besar untuk tugas pengekodan, meletakkan asas untuk penyesuaian mereka.
  2. Penalaan halus : Pada fasa kedua, model menggunakan dataset khusus tugas yang mengandungi tiga contoh pertanyaan-positif-dificult-negatif. Proses ini menggunakan saiz batch yang lebih kecil dan dataset yang dikendalikan dengan baik untuk meningkatkan prestasi tugas sasaran.

Baca Juga: Gemini Embedding: Universal Embedding dari Gemini

Perbandingan dengan model penyembuhan berbilang bahasa lain

Kami membandingkan pencarian dokumen Hindi dengan embedding Gemini yang baru dikeluarkan dan kemudian membandingkannya dengan embeddings Jina AI dan embeddings berbilang bahasa-E5-besar. Seperti yang ditunjukkan dalam jadual berikut, Gemini Embedding dan Jina Ai Embedding adalah tinggi dari segi bilangan maksimum tag, yang membolehkan model mengendalikan dokumen panjang atau pertanyaan kompleks. Tambahan pula, seperti yang ditunjukkan dalam jadual berikut, embeddings Gemini mempunyai dimensi embedding yang lebih tinggi yang menangkap hubungan semantik yang lebih terperinci dan bernuansa antara kata -kata, yang membolehkan model mewakili perbezaan nuanced dalam corak bahasa dan makna yang kompleks.

Bilangan parameter Dimensi Embed Tanda maksimum Bilangan bahasa Doll Embedding
Gemini-embedding-exp-03-07 tidak diketahui 3072 8192 100 Menyokong pemotongan embeddings ke pelbagai saiz, seperti 2048, 1024, 512, 256, dan 128 dimensi,
Jinaai/Jina-embeddings-V3 572 juta 1024 8194 100 Menyokong saiz embed fleksibel (32, 64, 128, 256, 512, 768, 1024), yang membolehkan embeds dipotong agar sesuai dengan aplikasi anda
Multiple-e5-Large-Instruct 560 juta 1024 514 94 Na

Pengambilan semula menggunakan Gemini Embedding dan dibandingkan dengan Jina Ai Embedding dan Multilingual-E5-Large

Dalam tutorial praktikal berikut, kami membandingkan carian dokumen Hindi dengan embedding Gemini yang baru dikeluarkan dan kemudian membandingkannya dengan embeddings Jina AI dan embeddings berbilang bahasa-E5-besar.

Langkah 1. Pasang perpustakaan yang diperlukan

 <code>!pip install langchain-community !pip install chromadb</code>
Salin selepas log masuk

Langkah 2. Muatkan data

Kami menggunakan data Hindi dari laman web untuk menilai prestasi Gemini yang membenamkan dalam pengambilan bahasa Hindi.

 <code>from langchain_community.document_loaders import WebBaseLoader loader = WebBaseLoader("https://ckbirlahospitals.com/rbh/blog/pregnancy-early-symptoms-in-hindi") data = loader.load()</code>
Salin selepas log masuk

Langkah 3. Sekat data

Kod berikut menggunakan recursiveCharactertextsplitter untuk memecah dokumen teks besar ke dalam 500 aksara karakter tanpa pertindihan. Ia kemudian menggunakan perpecahan ini ke Datavariable dan menyimpan hasilnya dalam All_splits. Oleh kerana batas kadar API embedding Gemini, kami hanya menggunakan 10 pecahan.

 <code>from langchain_text_splitters import RecursiveCharacterTextSplitter text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0) all_splits = text_splitter.split_documents(data) all_splits = all_splits[:10]</code>
Salin selepas log masuk

Langkah 4. Simpan data dalam pangkalan data vektor

Kami mula -mula mencipta kelas yang dipanggil "GeminiembeddingFunction" yang membantu menanyakan API penyembuhan Gemini dan mengembalikan nilai tertanam pertanyaan input. Kami kemudian membuat fungsi yang dipanggil "create_chroma_db" untuk membuat koleksi di Chromadb yang akan menyimpan data serta dibenamkan.

 <code>import chromadb from chromadb import Documents, EmbeddingFunction, Embeddings class GeminiEmbeddingFunction(EmbeddingFunction): def __call__(self, input: Documents) -> Embeddings: title = "Custom query" return client.models.embed_content( model="gemini-embedding-exp-03-07", contents=input).embeddings[0].values def create_chroma_db(documents, name): chroma_client = chromadb.Client() db = chroma_client.create_collection(name=name, embedding_function=GeminiEmbeddingFunction()) for i, d in enumerate(documents): db.add( documents=d.page_content, ids=str(i) ) return db db = create_chroma_db(all_splits, "datab")</code>
Salin selepas log masuk

Langkah 5. Menanyakan pangkalan data

 <code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("आपको प्रेगनेंसी टेस्ट कब करवाना चाहिए?", db) print(passage)</code>
Salin selepas log masuk
Salin selepas log masuk

Langkah 6. Bandingkan dengan Jina Ai Embedding

Kod berikut menggunakan model Transformer Face Hugging untuk menentukan fungsi penyembuhan tersuai, serta cara untuk memproses input teks untuk menghasilkan embeddings.

  1. Autotokenizer dan automodel dari Transformers digunakan untuk memuatkan model pretrained (Jinaai/Jina-embeddings-V3) dan import embeddingfunction dari ChromAdb untuk mewujudkan embeddings tersuai.
  2. Fungsi purata_pool: Fungsi ini mengagregatkan keadaan tersembunyi model dengan melakukan operasi pengumpulan pada model, purata panjang urutan sambil mengambil topeng perhatian (mengabaikan tanda mengisi).
  3. CustomHuggingFace Class: Ia memaksimumkan teks, memakannya ke dalam model, dan mengira embedding menggunakan fungsi purata_pool. Hasilnya dikembalikan sebagai senarai tertanam.
 <code>from transformers import AutoTokenizer, AutoModel from chromadb import EmbeddingFunction tokenizer = AutoTokenizer.from_pretrained('jinaai/jina-embeddings-v3') model = AutoModel.from_pretrained('jinaai/jina-embeddings-v3') # the model returns many hidden states per document so we must aggregate them def average_pool(last_hidden_states, attention_mask): last_hidden = last_hidden_states.masked_fill(~attention_mask[...,None].bool(), 0.0) return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[...,None] class CustomHuggingFace(EmbeddingFunction): def __call__(self, texts): queries = [f'query: {text}' for text in texts] batch_dict = tokenizer(texts, max_length=512, padding=True, truncation=True, return_tensors='pt') outputs = model(**batch_dict) embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask']) return embeddings.tolist()</code>
Salin selepas log masuk

Pertanyaan

 <code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("आपको प्रेगनेंसी टेस्ट कब करवाना चाहिए?", db) print(passage)</code>
Salin selepas log masuk
Salin selepas log masuk

Untuk memilih Multiple-E5-Large Embed , kami hanya menggantikan Tokenizer dan Model dengan "Intfloat/Multilingual-E5-Large-Instruct".

Perbandingan output carian tertanam

Nombor soalan Pertanyaan Gemini Embed Jinaai/Jina-embeddings-V3 Intfloat/multilingual-e5-large-instruct
1 आपको प्रेगनेंसी टेस्ट कब करवाना चाहिए? Jika anda ingin mengetahui lebih lanjut mengenai gejala awal kehamilan, catatan blog ini sesuai untuk anda. Bilakah anda mesti menjalani ujian kehamilan? -mistak Jika anda ingin mengetahui lebih lanjut mengenai gejala awal kehamilan, catatan blog ini sesuai untuk anda. Bilakah anda mesti menjalani ujian kehamilan? -mistak Jika anda ingin mengetahui lebih lanjut mengenai gejala awal kehamilan, catatan blog ini sesuai untuk anda. Bilakah anda mesti menjalani ujian kehamilan? -mistak
2 Kehamilan के Kuch Simbol क्या होते हैं? Apakah gejala awal kehamilan? Semasa kehamilan, banyak perubahan hormon berlaku pada wanita. Gejala awal kehamilan termasuk loya, muntah, kencing kerap dan keletihan, yang akan kita bincangkan dalam catatan blog ini. -kecor Tanda -tanda kehamilan: Maklumat lengkap mengenai gejala awal! Log Masuk Pesakit Perundingan Pantas Home Hubungi kami: 08062136530 Kecemasan Telefon: 07340054470 Buka menu utama untuk melayani pesakit dan pelawat pesakit antarabangsa tentang kami membuat temujanji untuk memanggil WhatsApp untuk mengetahui tentang gejala awal kehamilan. Obstetrik dan Ginekologi | Pengarang: Dr. CP Dadhich | Tarikh Siaran: 6 Februari 2025 Kandungan Bilakah anda harus menjalani ujian kehamilan? Apakah gejala awal kehamilan? Gejala awal kehamilan kehamilan - Kesalahan Apakah gejala awal kehamilan? Semasa kehamilan, banyak perubahan hormon berlaku pada wanita. Gejala awal kehamilan termasuk loya, muntah, kencing kerap dan keletihan, yang akan kita bincangkan dalam catatan blog ini. -kecor
3 गर्भावस्था के दौरान एंटीबायोटिक दवा लेने से कब बचा हिए? Semasa beberapa hari pertama kehamilan, telur dan sperma disenyawakan, menyebabkan gejala seperti pendarahan dan sakit perut. Dalam tempoh ini, untuk kehamilan yang sihat, wanita dinasihatkan untuk mengelakkan mengambil antibiotik, kerana ini boleh berbahaya kepada ibu dan bayi. Gejala awal kehamilan tidak selalu tertunda haid atau muntah. Di samping itu, gejala lain mungkin berlaku dan memerlukan perhatian khusus, seperti - betul Semasa beberapa hari pertama kehamilan, telur dan sperma disenyawakan, menyebabkan gejala seperti pendarahan dan sakit perut. Dalam tempoh ini, untuk kehamilan yang sihat, wanita dinasihatkan untuk mengelakkan mengambil antibiotik, kerana ini boleh berbahaya kepada ibu dan bayi. Gejala awal kehamilan tidak selalu tertunda haid atau muntah. Di samping itu, gejala lain mungkin berlaku dan memerlukan perhatian khusus, seperti - betul Apa yang harus diketahui oleh setiap wanita. Untuk sebarang soalan yang berkaitan dengan kehamilan, kami mengesyorkan agar anda menghubungi pakar sakit puan kami untuk menghapuskan semua komplikasi. -mistak
4 कब गर्भावस्था में एंटीबायोटिक दवा लेने से बचाया जाए? Semasa beberapa hari pertama kehamilan, telur dan sperma disenyawakan, menyebabkan gejala seperti pendarahan dan sakit perut. Dalam tempoh ini, untuk kehamilan yang sihat, wanita dinasihatkan untuk mengelakkan mengambil antibiotik, kerana ini boleh berbahaya kepada ibu dan bayi. Gejala awal kehamilan tidak selalu tertunda haid atau muntah. Di samping itu, gejala lain mungkin berlaku dan memerlukan perhatian khusus, seperti - betul Semasa beberapa hari pertama kehamilan, telur dan sperma disenyawakan, menyebabkan gejala seperti pendarahan dan sakit perut. Dalam tempoh ini, untuk kehamilan yang sihat, wanita dinasihatkan untuk mengelakkan mengambil antibiotik, kerana ini boleh berbahaya kepada ibu dan bayi. Gejala awal kehamilan tidak selalu tertunda haid atau muntah. Di samping itu, gejala lain mungkin berlaku dan memerlukan perhatian khusus, seperti - betul Apa yang harus diketahui oleh setiap wanita. Untuk sebarang soalan yang berkaitan dengan kehamilan, kami mengesyorkan agar anda menghubungi pakar sakit puan kami untuk menghapuskan semua komplikasi. -mistak
5 गर्भधारण का सबसे पहला सामान्य लक्षण क्या है? Haid yang ditangguhkan: Ini adalah gejala kehamilan yang paling awal dan paling biasa. Pengesahan kehamilan berdasarkan semata -mata pada gejala ini tidak sepenuhnya betul. Walau bagaimanapun, jika haid ditangguhkan selama satu minggu atau lebih, ujian kehamilan disyorkan. Perubahan payudara: Semasa kehamilan, payudara akan membengkak, menjadi lembut atau berubah warna. Ia terutamanya berubah dalam saiz dan warna puting (isola). -kecor Dengan ini, bagaimana untuk mengesahkan kehamilan? Bagaimana untuk menjaga bulan pertama kehamilan? Bagaimana cara membuat pemeriksaan kehamilan? Bagaimana saya harus duduk semasa kehamilan? Sekiranya seks berlaku semasa kehamilan? Buah -buahan apa yang harus anda makan semasa mengandung? Berapa banyak air yang harus anda minum semasa kehamilan? Kegembiraan menjadi seorang ibu adalah kebahagiaan terbesar di dunia. Semasa kehamilan, terdapat banyak perubahan dalam perubahan fizikal dan psikologi wanita. Anda memanggil perubahan ini gejala awal kehamilan - kesilapan Apakah gejala awal kehamilan? Semasa kehamilan, banyak perubahan hormon berlaku pada wanita. Gejala awal kehamilan termasuk loya, muntah, kencing kerap dan keletihan, yang akan kita bincangkan dalam catatan blog ini. -kecor
6 गर्भधारण के पहले क क्या होते हैं? Tanda -tanda kehamilan: Maklumat lengkap mengenai gejala awal! Log Masuk Pesakit Perundingan Pantas Home Hubungi kami: 08062136530 Kecemasan Telefon: 07340054470 Buka menu utama untuk melayani pesakit dan pelawat pesakit antarabangsa tentang kami membuat temujanji untuk memanggil WhatsApp untuk mengetahui tentang gejala awal kehamilan. Obstetrik dan Ginekologi | Pengarang: Dr. CP Dadhich | Tarikh Siaran: 6 Februari 2025 Kandungan Bilakah anda harus menjalani ujian kehamilan? Apakah gejala awal kehamilan? Gejala awal kehamilan kehamilan - Kesalahan Dengan ini, bagaimana untuk mengesahkan kehamilan? Bagaimana untuk menjaga bulan pertama kehamilan? Bagaimana cara membuat pemeriksaan kehamilan? Bagaimana saya harus duduk semasa kehamilan? Sekiranya seks berlaku semasa kehamilan? Buah -buahan apa yang harus anda makan semasa mengandung? Berapa banyak air yang harus anda minum semasa kehamilan? Kegembiraan menjadi seorang ibu adalah kebahagiaan terbesar di dunia. Semasa kehamilan, terdapat banyak perubahan dalam perubahan fizikal dan psikologi wanita. Anda memanggil perubahan ini gejala awal kehamilan - kesilapan Apakah gejala awal kehamilan? Semasa kehamilan, banyak perubahan hormon berlaku pada wanita. Gejala awal kehamilan termasuk loya, muntah, kencing kerap dan keletihan, yang akan kita bincangkan dalam catatan blog ini. -kecor
7 गर्भावस्था की पुष्टि के लिए से ह हाlet का पता लगाना होता है? Masa terbaik untuk menjalani ujian kehamilan adalah selepas haid ditangguhkan sekurang -kurangnya 7 hari. Anda boleh menggunakan alat ujian kehamilan rumah untuk mengesan tahap HCG di rumah. Semasa kehamilan, tahap hormon ini akan meningkat dengan ketara. Satu perkara yang perlu anda perhatikan ialah ujian pramatang juga boleh membawa kepada keputusan yang salah, jadi jika tempoh anda ditangguhkan dan ujiannya negatif, disarankan agar anda menunggu sekurang -kurangnya 3 hari lagi sebelum anda menguji lagi. -kecor Terdapat juga cara yang betul untuk melakukan ini, yang boleh anda lihat pada manual alat ujian. Untuk mendapatkan hasil yang tepat, anda harus menggunakan air kencing pertama pada waktu pagi, kerana tahap hormon HCG yang betul dapat diukur. Juga, jika anda mengalami gejala awal kehamilan dan keputusan ujian negatif, lihat doktor anda untuk ujian darah dengan segera. Walau apa pun, anda mesti berunding dengan doktor jika anda mempunyai sebarang pertanyaan. -kecor Apakah gejala awal kehamilan? Semasa kehamilan, banyak perubahan hormon berlaku pada wanita. Gejala awal kehamilan termasuk loya, muntah, kencing kerap dan keletihan, yang akan kita bincangkan dalam catatan blog ini. -mistak

Jelaskan

Seperti yang dapat dilihat dari output Hindi di atas, dengan menggunakan Gemini Embedding, kami mendapat 5 output yang betul dari 7 pertanyaan, sambil menggunakan Jina Ai Embedding dan Multilingual-E5-Large, kami hanya mendapat 3 respons yang betul.

Ini menunjukkan bahawa, seperti yang ditunjukkan dalam penanda aras MTEB, embeddings Gemini berfungsi dengan baik dan mengendalikan pelbagai bahasa seperti Hindi lebih baik daripada model penyembuhan lain.

kesimpulannya

Singkatnya, penyembuhan Gemini mewakili kemajuan yang ketara dalam NLP berbilang bahasa, terutamanya untuk bahasa Hindi seperti Hindi. Dengan keupayaan berbilang bahasa yang kuat, sokongan untuk saiz input yang besar, dan prestasi unggul dalam tanda aras seperti MTEB, Gemini cemerlang dalam tugas -tugas seperti pengambilan, klasifikasi, dan carian semantik. Melalui perbandingan praktikal, prestasi Gemini lebih baik daripada model lain, memberikan ketepatan dan kecekapan yang lebih tinggi, menjadikannya alat yang berharga untuk mempromosikan NLP berbilang bahasa.

Keuntungan utama

  • Kepentingan bahasa bahasa Hindi embedding : embedding berkualiti tinggi meningkatkan tugas NLP seperti terjemahan, soal jawab, dan pengambilan semula, menyelesaikan cabaran bahasa dan masalah jurang sumber.
  • Model Embedding Gemini : Embedding Gemini Google menggunakan kerangka AInya untuk pemprosesan teks berbilang bahasa, yang meliputi lebih daripada 100 bahasa, termasuk bahasa sumber rendah.
  • Ciri-ciri utama : Menyokong 8000 penanda dan embeddings 3072 dimensi, membolehkan pemprosesan dokumen panjang dan pertanyaan yang kompleks.
  • Prestasi yang mengagumkan : Peringkat No. 1 dalam ranking berbilang bahasa MTEB dengan skor tugas purata 68.32, menunjukkan kuasa dalam NLP berbilang bahasa.

Media yang ditunjukkan dalam artikel ini tidak dimiliki oleh Analytics Vidhya dan boleh digunakan mengikut budi bicara penulis.

Soalan yang sering ditanya

Q1. Apakah model penyembuhan Gemini? A: Model Embedding Gemini didasarkan pada Gemini AI Google dan menyediakan embedding teks berbilang bahasa yang paling tinggi untuk lebih daripada 100 bahasa termasuk Hindi.

S2. Apa yang unik mengenai penyembuhan Gemini berbanding dengan model lain? A: Gemini Embedding Excels dalam sokongan berbilang bahasa, boleh memproses 8000 penanda dan output 3072 dimensi, memastikan kecekapan dalam klasifikasi, pengambilan semula dan carian semantik.

Q3. Bagaimanakah penyembuhan Gemini melaksanakan tugas berbilang bahasa? Jawapan: Embedding Gemini berfungsi dengan baik dalam bahasa sumber tinggi seperti bahasa Inggeris dan bahasa rendah seperti Assamese dan Macedonian. Ia menduduki tempat nombor satu pada ranking berbilang bahasa MTEB, menunjukkan keupayaan berbilang bahasa yang kuat.

Q4. Apakah seni bina model penyembuhan Gemini? A: Model ini dimulakan dari Gemini LLM dan menggunakan seni bina pengubah dengan perhatian bidirectional untuk menjana embedding teks berkualiti tinggi yang menangkap konteks dan makna.

S5. Bagaimanakah model penyembuhan Gemini dilatih? A: Gemini Embedding menggunakan kerugian anggaran perbandingan bunyi (NCE) dengan contoh negatif dalam latihan untuk latihan. Ia melalui dua fasa latihan: pra-penalaan pada dataset besar dan dataset khusus tugas untuk meningkatkan prestasi NLP.

Atas ialah kandungan terperinci Perbandingan Gemini Embedding dengan Multilingual-E5-Large & Jina. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan