Gemini -Einbettung: Mehrsprachiger Texteinbettungsmodell unter Google Gemini AI Framework
Die Worteinbettung ist für Aufgaben (natürliche Sprachverarbeitung) in Hindi von entscheidender Bedeutung, wie z. B. maschinelle Übersetzung, Frage und Beantwortung sowie das Abrufen von Informationen. Diese Einbettungen erfassen die semantischen Eigenschaften von Wörtern und ermöglichen eine genauere und kontextorientierte NLP-Anwendungen. Angesichts der großen Anzahl von Hindi-Sprechern und dem wachsenden Zahleninhalt der Hindi-Sprache ist eine hochwertige Einbettung von entscheidender Bedeutung, um die NLP-Leistung in diesen Sprachen zu verbessern. Eine individuelle Einbettung kann speziell die einzigartigen Sprachmerkmale und Ressourcenbeschränkungen der indischen Sprachfamilie lösen. Das neu veröffentlichte Gemini-Einbettungsmodell stellt einen signifikanten Fortschritt bei der Einbettung von mehrsprachigen Text dar und nutzt Googles leistungsstarke Gemini-AI-Framework von Google, um eine modernste Leistung in über 100 Sprachen zu erzielen.
Das Gemini -Einbettungsmodell ist bei Aufgaben wie Klassifizierung, Abruf und semantischer Suche gut und bietet eine größere Effizienz und Genauigkeit. Durch die Unterstützung größerer Eingangsskalen und höherdimensionalen Ausgänge bietet Gemini -Einbettung reichhaltigere Textdarstellungen, sodass sie in einer Vielzahl von Anwendungen häufig verwendet werden können.
*Dieser Artikel wird als Teil des *** Data Science Blog Marathon veröffentlicht . ***
Im März 2025 veröffentlichte Google ein neues experimentelles Gemini-Einbettungstextmodell (Gemini-Embedding-EXP-03-07), das in der Gemini-API verwendet werden kann.
Das erweiterte Einbettungsmodell stammt aus dem Gemini -Modell, das das tiefgreifende Verständnis von Nuancen von Sprache und subtilen Kontexten von Gemini erben und es ermöglicht, in einer Vielzahl von Anwendungen weit verbreitet zu sein. Es steht in der MTEB -mehrsprachigen Rangliste an erster Stelle.
Die Gemini -Einbettung repräsentiert Text als dichte Vektoren, bei denen Texteingaben mit ähnlicher Semantik Vektoren im Vektorraum zugeordnet werden, die nahe beieinander liegen. Derzeit unterstützt es über 100 Sprachen, und seine Einbettung kann für eine Vielzahl von Aufgaben wie Abruf und Klassifizierung verwendet werden.
Der Kern der Gemini -Einbettung basiert auf der Transformatorarchitektur und aus Gemini LLM initialisiert. Diese Grundlage bietet ein tiefes Verständnis der Sprachstruktur und der Semantik für das Modell. Das Modell verwendet einen bidirektionalen Aufmerksamkeitsmechanismus, um Eingangssequenzen so zu verarbeiten, dass es den vollständigen Kontext eines Wortes oder einer Phrase beim Erstellen einer Einbettung berücksichtigen kann.
Verlustfunktion : Das Gemini-Einbettungsmodell wird unter Verwendung von NCCE-Verlusten (Rauschenvergleichsschätzungen) mit negativen Beispielen in den Batch trainiert. Der genaue Verlust variiert je nach Trainingsphase geringfügig. Im Allgemeinen umfasst ein Trainingsbeispiel eine Abfrage, ein positives Ziel und (optional) ein schwieriges Ziel.
Lesen Sie auch: Gemini Einbettung: Universelle Einbettung aus Gemini
Wir vergleichen die Suche nach Hindi-Dokumenten mit den neuesten neu veröffentlichten Gemini-Einbettungen und vergleichen sie dann mit Jina AI-Einbettungen und mehrsprachigen E-E5-Large-Einbettungen. Wie in der folgenden Tabelle gezeigt, sind die Einbettung von Gemini und die Einbettung von Jina AI hinsichtlich der maximalen Anzahl von Tags hoch, sodass das Modell lange Dokumente oder komplexe Abfragen verarbeiten kann. Darüber hinaus weisen Gemini -Einbettungen, wie in der folgenden Tabelle gezeigt, eine höhere Einbettungsdimension auf, die detailliertere und differenziertere semantische Beziehungen zwischen Wörtern erfasst, sodass Modelle nuancierte Unterschiede in komplexen Sprachmustern und -bedeutungen darstellen können.
Anzahl der Parameter | Dimensionen einbetten | Maximale Marke | Anzahl der Sprachen | Puppenbettung | |
Gemini-Embedding-EXP-03-07 | unbekannt | 3072 | 8192 | 100 | Unterstützt die Abschneidung von Einbettungen in verschiedenen Größen, wie beispielsweise 2048, 1024, 512, 256 und 128 Dimensionen, |
Jinaai/Jina-Embeddings-V3 | 572 Millionen | 1024 | 8194 | 100 | Unterstützt flexible Einbettungsgrößen (32, 64, 128, 256, 512, 768, 1024), sodass verkürzte Einbettungen zu Ihrer Anwendung passen können |
Mehrsprachiger-e5-large-instruct | 560 Millionen | 1024 | 514 | 94 | N / A |
Im folgenden praktischen Tutorial vergleichen wir die Suche nach Hindi-Dokumenten mit den neuesten neu veröffentlichten Gemini-Einbettungen und vergleichen sie dann mit Jina AI-Einbettungen und mehrsprachigen E5-Large-Einbettungen.
Schritt 1. Installieren Sie die erforderlichen Bibliotheken
<code>!pip install langchain-community !pip install chromadb</code>
Schritt 2. Laden Sie die Daten
Wir haben Hindi -Daten von der Website verwendet, um die Leistung von Gemini -Einbetten in das Abrufen von Hindi -Sprachen zu bewerten.
<code>from langchain_community.document_loaders import WebBaseLoader loader = WebBaseLoader("https://ckbirlahospitals.com/rbh/blog/pregnancy-early-symptoms-in-hindi") data = loader.load()</code>
Schritt 3. Blockieren Sie die Daten
Der folgende Code verwendet recursivecharactertextSplitter, um ein großes Textdokument ohne Überlappung in 500-Charakter-Stücke aufzuteilen. Anschließend wird diese Aufteilung auf den Datavariable angewendet und das Ergebnis in All_Splits gespeichert. Aufgrund der Ratengrenzen der Gemini -Einbettungs -API verwenden wir nur 10 Spaltungen.
<code>from langchain_text_splitters import RecursiveCharacterTextSplitter text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0) all_splits = text_splitter.split_documents(data) all_splits = all_splits[:10]</code>
Schritt 4. Speichern Sie die Daten in der Vektor -Datenbank
Wir erstellen zunächst eine Klasse namens "Geminiembeddingfunction", mit der die Gemini -Einbettung der API abfragt und den eingebetteten Wert der Eingabebestand zurückgibt. Wir erstellen dann eine Funktion namens "create_chroma_db", um eine Sammlung in Chromadb zu erstellen, die sowohl Daten als auch einbettet.
<code>import chromadb from chromadb import Documents, EmbeddingFunction, Embeddings class GeminiEmbeddingFunction(EmbeddingFunction): def __call__(self, input: Documents) -> Embeddings: title = "Custom query" return client.models.embed_content( model="gemini-embedding-exp-03-07", contents=input).embeddings[0].values def create_chroma_db(documents, name): chroma_client = chromadb.Client() db = chroma_client.create_collection(name=name, embedding_function=GeminiEmbeddingFunction()) for i, d in enumerate(documents): db.add( documents=d.page_content, ids=str(i) ) return db db = create_chroma_db(all_splits, "datab")</code>
Schritt 5. Abfragen Sie die Datenbank ab
<code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("आपको प्रेगनेंसी टेस्ट कब करवाना चाहिए?", db) print(passage)</code>
Schritt 6. Vergleiche mit Jina AI Einbettung
Der folgende Code verwendet das Umarmungsgesichts -Transformatormodell, um eine benutzerdefinierte Einbettungsfunktion zu definieren, sowie eine Möglichkeit, die Texteingaben zu verarbeiten, um Einbettungsdings zu generieren.
<code>from transformers import AutoTokenizer, AutoModel from chromadb import EmbeddingFunction tokenizer = AutoTokenizer.from_pretrained('jinaai/jina-embeddings-v3') model = AutoModel.from_pretrained('jinaai/jina-embeddings-v3') # the model returns many hidden states per document so we must aggregate them def average_pool(last_hidden_states, attention_mask): last_hidden = last_hidden_states.masked_fill(~attention_mask[...,None].bool(), 0.0) return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[...,None] class CustomHuggingFace(EmbeddingFunction): def __call__(self, texts): queries = [f'query: {text}' for text in texts] batch_dict = tokenizer(texts, max_length=512, padding=True, truncation=True, return_tensors='pt') outputs = model(**batch_dict) embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask']) return embeddings.tolist()</code>
Abfrage
<code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("आपको प्रेगनेंसी टेस्ट कब करवाना चाहिए?", db) print(passage)</code>
Bei der Auswahl der mehrsprachigen Einbettung von mehrsprachigen E5-Largen ersetzen wir einfach den Tokenizer und das Modell durch "Intfloat/mehrsprachige E5-Large-Instruction".
Frage Nummer | Abfrage | Gemini einbettet | Jinaai/Jina-Embeddings-V3 | intfloat/mehrsprachig-e5-large-struktur |
1 | आपको प्ेगनेंसी टेस्ट कब ककवाना चाहिए? | Wenn Sie mehr über die frühen Schwangerschaftssymptome erfahren möchten, ist dieser Blog -Beitrag perfekt für Sie. Wann sollten Sie einen Schwangerschaftstest haben? -Fehler | Wenn Sie mehr über die frühen Schwangerschaftssymptome erfahren möchten, ist dieser Blog -Beitrag perfekt für Sie. Wann sollten Sie einen Schwangerschaftstest haben? -Fehler | Wenn Sie mehr über die frühen Schwangerschaftssymptome erfahren möchten, ist dieser Blog -Beitrag perfekt für Sie. Wann sollten Sie einen Schwangerschaftstest haben? -Fehler |
2 | Schwangerschaft के Kuch -Symbole क्या होते हैं? | Was sind die frühen Symptome einer Schwangerschaft? Während der Schwangerschaft treten bei Frauen viele hormonelle Veränderungen auf. Frühe Schwangerschaftssymptome sind Übelkeit, Erbrechen, häufiges Wasserlassen und Müdigkeit, die wir in diesem Blog -Beitrag diskutieren werden. -richtig | Anzeichen einer Schwangerschaft: Vollständige Informationen zu frühen Symptomen! Home Quick Consultation Patient Anmeldeanmeldung Kontaktieren Sie uns: 08062136530 Notfall Telefon: 07340054470 Öffnen Sie das Hauptmenü, um Patienten und Besucher internationale Patienten über uns zu bedienen, um einen Termin zu vereinbaren, um WhatsApp zurückzurufen, um mehr über die frühen Symptome einer Schwangerschaft zu erfahren. Geburtshilfe und Gynäkologie | Autor: Dr. CP Dadhich Was sind die frühen Symptome einer Schwangerschaft? Frühe Symptome einer Schwangerschaftsschwangerschaft - Fehler | Was sind die frühen Symptome einer Schwangerschaft? Während der Schwangerschaft treten bei Frauen viele hormonelle Veränderungen auf. Frühe Schwangerschaftssymptome sind Übelkeit, Erbrechen, häufiges Wasserlassen und Müdigkeit, die wir in diesem Blog -Beitrag diskutieren werden. -richtig |
3 | गग्भावस्था के दौदौान एंटीबायोटिक दवा लेने से कब बचा हिए? | In den ersten Tagen der Schwangerschaft werden Eier und Spermien befruchtet, was Symptome wie Blutungen und Bauchschmerzen verursacht. In dieser Zeit wird Frauen für eine gesunde Schwangerschaft empfohlen, Antibiotika zu vermeiden, da dies für Mütter und Babys gefährlich sein kann. Frühe Schwangerschaftssymptome sind nicht immer eine verzögerte Menstruation oder Erbrechen. Darüber hinaus können andere Symptome auftreten und besondere Aufmerksamkeit erfordern, z . | In den ersten Tagen der Schwangerschaft werden Eier und Spermien befruchtet, was Symptome wie Blutungen und Bauchschmerzen verursacht. In dieser Zeit wird Frauen für eine gesunde Schwangerschaft empfohlen, Antibiotika zu vermeiden, da dies für Mütter und Babys gefährlich sein kann. Frühe Schwangerschaftssymptome sind nicht immer eine verzögerte Menstruation oder Erbrechen. Darüber hinaus können andere Symptome auftreten und besondere Aufmerksamkeit erfordern, z . | Was jede Frau wissen sollte. Bei Fragen im Zusammenhang mit schwangerschaftsbezogenen Fragen empfehlen wir Ihnen, sich an unseren Gynäkologen zu wenden, um alle Komplikationen zu beseitigen. -Fehler |
4 | " | In den ersten Tagen der Schwangerschaft werden Eier und Spermien befruchtet, was Symptome wie Blutungen und Bauchschmerzen verursacht. In dieser Zeit wird Frauen für eine gesunde Schwangerschaft empfohlen, Antibiotika zu vermeiden, da dies für Mütter und Babys gefährlich sein kann. Frühe Schwangerschaftssymptome sind nicht immer eine verzögerte Menstruation oder Erbrechen. Darüber hinaus können andere Symptome auftreten und besondere Aufmerksamkeit erfordern, z . | In den ersten Tagen der Schwangerschaft werden Eier und Spermien befruchtet, was Symptome wie Blutungen und Bauchschmerzen verursacht. In dieser Zeit wird Frauen für eine gesunde Schwangerschaft empfohlen, Antibiotika zu vermeiden, da dies für Mütter und Babys gefährlich sein kann. Frühe Schwangerschaftssymptome sind nicht immer eine verzögerte Menstruation oder Erbrechen. Darüber hinaus können andere Symptome auftreten und besondere Aufmerksamkeit erfordern, z . | Was jede Frau wissen sollte. Bei Fragen im Zusammenhang mit schwangerschaftsbezogenen Fragen empfehlen wir Ihnen, sich an unseren Gynäkologen zu wenden, um alle Komplikationen zu beseitigen. -Fehler |
5 | " | Verzögerte Menstruation: Dies ist das früheste und häufigste Symptom einer Schwangerschaft. Die Bestätigung der Schwangerschaft, die ausschließlich auf diesem Symptom beruht, ist nicht vollständig korrekt. Wenn die Menstruation jedoch eine Woche oder länger verzögert wird, werden Schwangerschaftstests empfohlen. Brustveränderungen: Während der Schwangerschaft schwellen die Brüste an, werden zart oder verändern sich in der Farbe. Es ändert sich hauptsächlich in der Größe und Farbe der Brustwarze (Areola). -richtig | Wie kann man in diesem Sinne die Schwangerschaft bestätigen? Wie kümmere ich mich um den ersten Monat der Schwangerschaft? Wie mache ich Schwangerschaftsuntersuchungen? Wie soll ich während der Schwangerschaft sitzen? Sollte Sex während der Schwangerschaft auftreten? Welche Früchte sollten Sie während der Schwangerschaft essen? Wie viel Wasser sollten Sie während der Schwangerschaft trinken? Die Freude, Mutter zu werden, ist das größte Glück der Welt. Während der Schwangerschaft gibt es viele Veränderungen in den physischen und psychischen Veränderungen von Frauen. Sie nennen diese Veränderungen frühzeitige Schwangerschaftssymptome - Fehler | Was sind die frühen Symptome einer Schwangerschaft? Während der Schwangerschaft treten bei Frauen viele hormonelle Veränderungen auf. Frühe Schwangerschaftssymptome sind Übelkeit, Erbrechen, häufiges Wasserlassen und Müdigkeit, die wir in diesem Blog -Beitrag diskutieren werden. -richtig |
6 | गग्भधाण के पहले संकेत क्या होते हैं? | Anzeichen einer Schwangerschaft: Vollständige Informationen zu frühen Symptomen! Home Quick Consultation Patient Anmeldeanmeldung Kontaktieren Sie uns: 08062136530 Notfall Telefon: 07340054470 Öffnen Sie das Hauptmenü, um Patienten und Besucher internationale Patienten über uns zu bedienen, um einen Termin zu vereinbaren, um WhatsApp zurückzurufen, um mehr über die frühen Symptome einer Schwangerschaft zu erfahren. Geburtshilfe und Gynäkologie | Autor: Dr. CP Dadhich Was sind die frühen Symptome einer Schwangerschaft? Frühe Symptome einer Schwangerschaftsschwangerschaft - Fehler | Wie kann man in diesem Sinne die Schwangerschaft bestätigen? Wie kümmere ich mich um den ersten Monat der Schwangerschaft? Wie mache ich Schwangerschaftsuntersuchungen? Wie soll ich während der Schwangerschaft sitzen? Sollte Sex während der Schwangerschaft auftreten? Welche Früchte sollten Sie während der Schwangerschaft essen? Wie viel Wasser sollten Sie während der Schwangerschaft trinken? Die Freude, Mutter zu werden, ist das größte Glück der Welt. Während der Schwangerschaft gibt es viele Veränderungen in den physischen und psychischen Veränderungen von Frauen. Sie nennen diese Veränderungen frühzeitige Schwangerschaftssymptome - Fehler | Was sind die frühen Symptome einer Schwangerschaft? Während der Schwangerschaft treten bei Frauen viele hormonelle Veränderungen auf. Frühe Schwangerschaftssymptome sind Übelkeit, Erbrechen, häufiges Wasserlassen und Müdigkeit, die wir in diesem Blog -Beitrag diskutieren werden. -richtig |
7 | " | Die beste Zeit für einen Schwangerschaftstest ist, dass die Menstruation um mindestens 7 Tage verzögert wird. Sie können das Home -Schwangerschaftstest -Tool verwenden, um HCG -Werte zu Hause zu erkennen. Während der Schwangerschaft steigt die Spiegel dieses Hormons erheblich an. Eine Sache, die Sie beachten müssen, ist, dass vorzeitige Tests auch zu falschen Ergebnissen führen können. Wenn sich Ihre Periode verzögert und der Test negativ ist, wird empfohlen, mindestens 3 weitere Tage zu warten, bevor Sie erneut testen. -richtig | Es gibt auch eine korrekte Möglichkeit, dies zu tun, die Sie auch im Testwerkzeughandbuch sehen können. Um genaue Ergebnisse zu erzielen, sollten Sie morgens den ersten Urin verwenden, da das korrekte HCG -Hormon gemessen werden kann. Wenn Sie frühe Schwangerschaftssymptome aufweisen und die Testergebnisse negativ sind, sehen Sie Ihren Arzt sofort für einen Bluttest. In jedem Fall müssen Sie einen Arzt konsultieren, wenn Sie Fragen haben. -richtig | Was sind die frühen Symptome einer Schwangerschaft? Während der Schwangerschaft treten bei Frauen viele hormonelle Veränderungen auf. Frühe Schwangerschaftssymptome sind Übelkeit, Erbrechen, häufiges Wasserlassen und Müdigkeit, die wir in diesem Blog -Beitrag diskutieren werden. -Fehler |
Wie aus der obigen Hindi-Ausgabe ersichtlich ist, erhalten wir unter Verwendung von Gemini-Einbettung 5 korrekte Ausgänge aus 7 Abfragen, während wir Jina AI-Einbettung und mehrsprachige E5-Large verwenden, nur 3 korrekte Antworten erhalten.
Dies zeigt, dass Gemini -Einbettungen, wie sich in der MTEB -Benchmark widerspiegelt, gut abschneiden und mehrsprachige wie Hindi besser abwickeln als andere Einbettungsmodelle.
Kurz gesagt, Gemini -Einbettung stellt einen signifikanten Fortschritt bei mehrsprachiger NLP dar, insbesondere für Hindi -Sprachen wie Hindi. Mit seinen starken mehrsprachigen Fähigkeiten, der Unterstützung großer Eingangsgrößen und der überlegenen Leistung in Benchmarks wie MTEB Excels in Aufgaben wie Abruf, Klassifizierung und semantische Suche. Durch praktische Vergleiche ist die Leistung von Gemini besser als andere Modelle, was eine höhere Genauigkeit und Effizienz bietet, was es zu einem wertvollen Instrument zur Förderung mehrsprachiger NLP macht.
Die in diesem Artikel gezeigten Medien sind nicht im Besitz von Analytics Vidhya und können nach Ermessen des Autors verwendet werden.
Q1. A: Das Gemini-Einbettungsmodell basiert auf Googles Gemini AI und bietet erstklassige mehrsprachige Texteinbettungen für mehr als 100 Sprachen, einschließlich Hindi.
F2. A: Gemini einbettet Excels in mehrsprachige Unterstützung ein, kann 8000 Marker verarbeiten und 3072 Dimensionen ausgeben, um die Effizienz bei der Klassifizierung, Abruf und semantischer Suche zu gewährleisten.
F3. Antwort: Gemini Einbettung ist in hochressourcen-Sprachen wie englischen und ressourcenarmen Sprachen wie Assamesisch und Mazedonier gut ab. Es ist die Nummer eins in der MTEB -mehrsprachigen Rangliste und demonstriert die leistungsstarken mehrsprachigen Fähigkeiten.
F4. Was ist die Architektur des Gemini -Einbettungsmodells? A: Das Modell wird aus Gemini LLM initialisiert und verwendet eine Transformatorarchitektur mit bidirektionaler Aufmerksamkeit, um hochwertige Texteinbettungen zu erzeugen, die Kontext und Bedeutung erfassen.
F5. Wie wird das Gemini -Einbettungsmodell trainiert? A: Gemini-Einbettung verwendet Verlust (Rauschvergleichsschätzung) mit negativen Beispielen für das Training. Es durchläuft zwei Trainingsphasen: Vor-Fine-Einstellung auf einem großen Datensatz und aufgabenspezifischen Datensätzen zur Verbesserung der NLP-Leistung.
Das obige ist der detaillierte Inhalt vonVergleich der Gemini-Einbettung in mehrsprachige E5-Large & Jina. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!