Gemini Incorpore: modèle d'intégration de texte multilingue dans le cadre de Google Gemini AI
L'intégration des mots est cruciale pour les tâches de traitement du langage naturel (NLP) en hindi, telles que la traduction machine, la question et la réponse et la récupération de l'information. Ces intérêts capturent les propriétés sémantiques des mots, permettant des applications NLP plus précises et axées sur le contexte. Compte tenu du grand nombre de locuteurs hindi et du contenu croissant du langage en hindi, l'intégration de haute qualité est essentielle pour améliorer les performances des PNL dans ces langues. L'intégration personnalisée peut résoudre spécifiquement les caractéristiques linguistiques uniques et les limitations des ressources de la famille des langues indiennes. Le modèle d'intégration des Gémeaux récemment publié représente une progression importante dans l'intégration de texte multilingue, tirant parti du puissant cadre de l'IA Gémeaux de Google pour atteindre des performances de pointe dans plus de 100 langues.
Le modèle d'intégration des Gémeaux est bon dans les tâches telles que la classification, la recherche et la recherche sémantique, offrant une plus grande efficacité et précision. En prenant en charge des échelles d'entrée plus grandes et des sorties dimensionnelles plus élevées, l'intégration des Gémeaux fournit des représentations de texte plus riches, ce qui permet d'être largement utilisées dans une variété d'applications.
* Cet article est publié dans le cadre du *** Data Science Blog Marathon . ***
En mars 2025, Google a publié un nouveau modèle expérimental de texte d'intégration de Gémeaux (Gemini-Embedding-Exp-03-07) qui peut être utilisé dans l'API Gemini.
Le modèle d'incorporation avancé provenait du modèle Gemini, qui hériterait de la profonde compréhension de Gemini des nuances du langage et des contextes subtils, ce qui permet d'être largement utilisé dans une variété d'applications. Il se classe en premier dans le classement multilingue du MTEB.
L'intégration des Gémeaux représente le texte comme des vecteurs denses où les entrées de texte avec une sémantique similaire sont mappées sur des vecteurs dans l'espace vectoriel qui sont proches les uns des autres. Actuellement, il prend en charge plus de 100 langues, et son intégration peut être utilisée pour une variété de tâches telles que la récupération et la classification.
Le noyau de l'incorporation des gemini est basé sur l'architecture du transformateur et initialisé à partir de Gemini LLM. Cette base fournit une compréhension approfondie de la structure du langage et de la sémantique pour le modèle. Le modèle utilise un mécanisme d'attention bidirectionnel pour traiter les séquences d'entrée afin qu'elle puisse prendre en compte le contexte complet d'un mot ou d'une phrase lors de la génération d'une intégration.
Fonction de perte : Le modèle d'intégration des Gémeaux est entraîné à l'aide des pertes d'estimation de comparaison du bruit (NCE) avec des exemples négatifs en lots. La perte exacte variera légèrement en fonction de la phase de formation. D'une manière générale, un exemple de formation comprend une requête, une cible positive et (facultatif) une cible difficile.
Lire aussi: Gemini Embedding: Incorporation universelle des Gémeaux
Nous comparons la recherche de documents en hindi avec les dernières intégres Gemini nouvellement publiés, puis les comparons avec des incorporations Jina Ai et des intégres multi-gilingues-e5-large. Comme le montre le tableau suivant, l'intégration des Gémeaux et l'intégration de Jina AI sont élevées en termes de nombre maximum d'étiquettes, permettant au modèle de gérer de longs documents ou des requêtes complexes. En outre, comme le montre le tableau suivant, les intérêts des Gémeaux ont une dimension d'intégration plus élevée qui capture des relations sémantiques plus détaillées et nuancées entre les mots, permettant aux modèles de représenter des différences nuancées dans les modèles et significations linguistiques complexes.
Nombre de paramètres | Dimensions de l'incorporation | Marque maximale | Nombre de langues | Poupée intégrée | |
Gemini-Embedding-Exp-03-07 | inconnu | 3072 | 8192 | 100 | Soutient la troncature des intérêts à différentes tailles, telles que 2048, 1024, 512, 256 et 128 dimensions, |
Jinaai / Jina-Embeddings-V3 | 572 millions | 1024 | 8194 | 100 | Prend en charge des tailles d'intégration flexibles (32, 64, 128, 256, 512, 768, 1024), permettant aux intégres tronquées de s'adapter à votre application |
multilingue-e5-gard-instruct | 560 millions | 1024 | 514 | 94 | N / A |
Dans le tutoriel pratique suivant, nous comparons la recherche de documents en hindi avec les dernières intégres Gemini nouvellement publiés, puis le comparons avec les incorporations Jina AI et les intégres multi-gilingues-e5-large.
Étape 1. Installez les bibliothèques nécessaires
<code>!pip install langchain-community !pip install chromadb</code>
Étape 2. Chargez les données
Nous avons utilisé les données hindi du site Web pour évaluer les performances de l'intégration des Gémeaux dans la récupération de la langue hindi.
<code>from langchain_community.document_loaders import WebBaseLoader loader = WebBaseLoader("https://ckbirlahospitals.com/rbh/blog/pregnancy-early-symptoms-in-hindi") data = loader.load()</code>
Étape 3. Bloquer les données
Le code suivant utilise RecursiveCharAtteTtexTsPlitter pour diviser un grand document texte en morceaux de 500 caractères sans chevauchement. Il applique ensuite cette répartition au dataVariable et stocke le résultat dans all_splits. En raison des limites de taux de l'API d'intégration des Gémeaux, nous n'utilisons que 10 fentes.
<code>from langchain_text_splitters import RecursiveCharacterTextSplitter text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0) all_splits = text_splitter.split_documents(data) all_splits = all_splits[:10]</code>
Étape 4. Stockez les données dans la base de données vectorielle
Nous créons d'abord une classe appelée "GeminiembeddingFunction" qui aide à interroger l'API d'intégration des Gémeaux et à renvoyer la valeur intégrée de la requête d'entrée. Nous créons ensuite une fonction appelée "create_chroma_db" pour créer une collection dans ChromAdB qui stockera les données ainsi que l'intégration.
<code>import chromadb from chromadb import Documents, EmbeddingFunction, Embeddings class GeminiEmbeddingFunction(EmbeddingFunction): def __call__(self, input: Documents) -> Embeddings: title = "Custom query" return client.models.embed_content( model="gemini-embedding-exp-03-07", contents=input).embeddings[0].values def create_chroma_db(documents, name): chroma_client = chromadb.Client() db = chroma_client.create_collection(name=name, embedding_function=GeminiEmbeddingFunction()) for i, d in enumerate(documents): db.add( documents=d.page_content, ids=str(i) ) return db db = create_chroma_db(all_splits, "datab")</code>
Étape 5. Interroger la base de données
<code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("आपको प्रेगनेंसी टेस्ट कब करवाना चाहिए?", db) print(passage)</code>
Étape 6. Comparez avec Jina Ai intégration
Le code suivant utilise le modèle de transformateur de face étreint pour définir une fonction d'incorporation personnalisée, ainsi qu'un moyen de traiter l'entrée de texte pour générer des intégres.
<code>from transformers import AutoTokenizer, AutoModel from chromadb import EmbeddingFunction tokenizer = AutoTokenizer.from_pretrained('jinaai/jina-embeddings-v3') model = AutoModel.from_pretrained('jinaai/jina-embeddings-v3') # the model returns many hidden states per document so we must aggregate them def average_pool(last_hidden_states, attention_mask): last_hidden = last_hidden_states.masked_fill(~attention_mask[...,None].bool(), 0.0) return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[...,None] class CustomHuggingFace(EmbeddingFunction): def __call__(self, texts): queries = [f'query: {text}' for text in texts] batch_dict = tokenizer(texts, max_length=512, padding=True, truncation=True, return_tensors='pt') outputs = model(**batch_dict) embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask']) return embeddings.tolist()</code>
Requête
<code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("आपको प्रेगनेंसी टेस्ट कब करवाना चाहिए?", db) print(passage)</code>
Pour avoir choisi une intégration multitilingue-E5-Large , nous remplaçons simplement le tokenizer et le modèle par "intfloat / multilingue-e5-gard-instruct".
Numéro de question | Requête | Gémeaux | Jinaai / Jina-Embeddings-V3 | intfloat / multilingue-e5-gren |
1 | आपको प्रेगनेंसी टेस्ट कब करवाना चाहिए? | Si vous voulez en savoir plus sur les premiers symptômes de la grossesse, ce billet de blog est parfait pour vous. Quand devriez-vous passer un test de grossesse? -erreur | Si vous voulez en savoir plus sur les premiers symptômes de la grossesse, ce billet de blog est parfait pour vous. Quand devriez-vous passer un test de grossesse? -erreur | Si vous voulez en savoir plus sur les premiers symptômes de la grossesse, ce billet de blog est parfait pour vous. Quand devriez-vous passer un test de grossesse? -erreur |
2 | Grossesse के kuch symboles क्या होते हैं? | Quels sont les premiers symptômes de la grossesse? Pendant la grossesse, de nombreux changements hormonaux se produisent chez les femmes. Les premiers symptômes de la grossesse comprennent les nausées, les vomissements, la miction fréquente et la fatigue, dont nous discuterons dans cet article de blog. -correct | Signes de la grossesse: Informations complètes sur les symptômes précoces! Accueil Consultation rapide Patient Connexion Contactez-nous: 08062136530 Téléphone d'urgence: 07340054470 Ouvrez le menu principal pour servir les patients et les visiteurs patients internationaux à propos de nous, prenez rendez-vous pour rappeler WhatsApp pour en savoir plus sur les premiers symptômes de la grossesse. Obstétrique et gynécologie | Auteur: Dr CP Dadhich | Date de sortie: 6 février 2025 Contenu Quand devriez-vous passer un test de grossesse? Quels sont les premiers symptômes de la grossesse? Symptômes précoces de la grossesse Grossesse - Erreur | Quels sont les premiers symptômes de la grossesse? Pendant la grossesse, de nombreux changements hormonaux se produisent chez les femmes. Les premiers symptômes de la grossesse comprennent les nausées, les vomissements, la miction fréquente et la fatigue, dont nous discuterons dans cet article de blog. -correct |
3 | गर्भावस्था के दौरान एंटीबायोटिक दवा लेने से कब बचा हिए? | Au cours des premiers jours de grossesse, les œufs et les spermatozoïdes sont fertilisés, provoquant des symptômes tels que les saignements et les douleurs abdominales. Pendant cette période, pour une grossesse saine, il est conseillé aux femmes d'éviter de prendre des antibiotiques, car cela peut être dangereux pour les mères et les bébés. Les premiers symptômes de la grossesse ne sont pas toujours des menstruations ou des vomissements retardés. De plus, d'autres symptômes peuvent se produire et nécessitent une attention particulière, comme - correct | Au cours des premiers jours de grossesse, les œufs et les spermatozoïdes sont fertilisés, provoquant des symptômes tels que les saignements et les douleurs abdominales. Pendant cette période, pour une grossesse saine, il est conseillé aux femmes d'éviter de prendre des antibiotiques, car cela peut être dangereux pour les mères et les bébés. Les premiers symptômes de la grossesse ne sont pas toujours des menstruations ou des vomissements retardés. De plus, d'autres symptômes peuvent se produire et nécessitent une attention particulière, comme - correct | Ce que chaque femme devrait savoir. Pour toute question liée à la grossesse, nous vous recommandons de contacter notre gynécologue pour éliminer toutes les complications. -erreur |
4 | कब गर्भावस्था में एंटीबायोटिक दवा लेने से बचाया जाए? | Au cours des premiers jours de grossesse, les œufs et les spermatozoïdes sont fertilisés, provoquant des symptômes tels que les saignements et les douleurs abdominales. Pendant cette période, pour une grossesse saine, il est conseillé aux femmes d'éviter de prendre des antibiotiques, car cela peut être dangereux pour les mères et les bébés. Les premiers symptômes de la grossesse ne sont pas toujours des menstruations ou des vomissements retardés. De plus, d'autres symptômes peuvent se produire et nécessitent une attention particulière, comme - correct | Au cours des premiers jours de grossesse, les œufs et les spermatozoïdes sont fertilisés, provoquant des symptômes tels que les saignements et les douleurs abdominales. Pendant cette période, pour une grossesse saine, il est conseillé aux femmes d'éviter de prendre des antibiotiques, car cela peut être dangereux pour les mères et les bébés. Les premiers symptômes de la grossesse ne sont pas toujours des menstruations ou des vomissements retardés. De plus, d'autres symptômes peuvent se produire et nécessitent une attention particulière, comme - correct | Ce que chaque femme devrait savoir. Pour toute question liée à la grossesse, nous vous recommandons de contacter notre gynécologue pour éliminer toutes les complications. -erreur |
5 | गर्भधारण का सबसे पहला सामान्य लक्षण क्या है? | Menstruations retardées: il s'agit du symptôme le plus ancien et le plus courant de la grossesse. La confirmation de la grossesse basée uniquement sur ce symptôme n'est pas entièrement correcte. Cependant, si la menstruation est retardée d'une semaine ou plus, des tests de grossesse sont recommandés. Changements mammaires: pendant la grossesse, les seins gonflent, deviendront tendres ou changent de couleur. Il change principalement de la taille et de la couleur du mamelon (aréole). -correct | Dans cet esprit, comment confirmer la grossesse? Comment prendre soin du premier mois de grossesse? Comment faire des contrôles de grossesse? Comment dois-je m'asseoir pendant la grossesse? Le sexe devrait-il se produire pendant la grossesse? Quels fruits devriez-vous manger pendant la grossesse? Combien d'eau devriez-vous boire pendant la grossesse? La joie de devenir mère est le plus grand bonheur du monde. Pendant la grossesse, il y a de nombreux changements dans les changements physiques et psychologiques des femmes. Vous appelez ces changements de symptômes précoces de grossesse - Erreur | Quels sont les premiers symptômes de la grossesse? Pendant la grossesse, de nombreux changements hormonaux se produisent chez les femmes. Les premiers symptômes de la grossesse comprennent les nausées, les vomissements, la miction fréquente et la fatigue, dont nous discuterons dans cet article de blog. -correct |
6 | गर्भधारण के पहले संकेत क्या होते हैं? | Signes de la grossesse: Informations complètes sur les symptômes précoces! Accueil Consultation rapide Patient Connexion Contactez-nous: 08062136530 Téléphone d'urgence: 07340054470 Ouvrez le menu principal pour servir les patients et les visiteurs patients internationaux à propos de nous, prenez rendez-vous pour rappeler WhatsApp pour en savoir plus sur les premiers symptômes de la grossesse. Obstétrique et gynécologie | Auteur: Dr CP Dadhich | Date de sortie: 6 février 2025 Contenu Quand devriez-vous passer un test de grossesse? Quels sont les premiers symptômes de la grossesse? Symptômes précoces de la grossesse Grossesse - Erreur | Dans cet esprit, comment confirmer la grossesse? Comment prendre soin du premier mois de grossesse? Comment faire des contrôles de grossesse? Comment dois-je m'asseoir pendant la grossesse? Le sexe devrait-il se produire pendant la grossesse? Quels fruits devriez-vous manger pendant la grossesse? Combien d'eau devriez-vous boire pendant la grossesse? La joie de devenir mère est le plus grand bonheur du monde. Pendant la grossesse, il y a de nombreux changements dans les changements physiques et psychologiques des femmes. Vous appelez ces changements de symptômes précoces de grossesse - Erreur | Quels sont les premiers symptômes de la grossesse? Pendant la grossesse, de nombreux changements hormonaux se produisent chez les femmes. Les premiers symptômes de la grossesse comprennent les nausées, les vomissements, la miction fréquente et la fatigue, dont nous discuterons dans cet article de blog. -correct |
7 | गर्भावस्था की पुष्टि के लिए कौन से हार्मोन का पता लगाना होता है? | Le meilleur moment pour avoir un test de grossesse est après le retard des menstruations d'au moins 7 jours. Vous pouvez utiliser l'outil de test de grossesse à domicile pour détecter les niveaux de HCG à la maison. Pendant la grossesse, les niveaux de cette hormone augmenteront considérablement. Une chose que vous devez noter est que les tests prématurés peuvent également conduire à de mauvais résultats, donc si vos règles sont retardées et que le test est négatif, il est recommandé d'attendre au moins 3 jours de plus avant de tester à nouveau. -correct | Il existe également une façon correcte de le faire, que vous pouvez également voir sur le manuel de l'outil de test. Pour obtenir des résultats précis, vous devez utiliser la première urine le matin, car le bon niveau d'hormone HCG peut être mesuré. De plus, si vous ressentez des symptômes précoces de grossesse et que les résultats des tests sont négatifs, consultez votre médecin pour un test sanguin immédiatement. Dans tous les cas, vous devez consulter un médecin si vous avez des questions. -correct | Quels sont les premiers symptômes de la grossesse? Pendant la grossesse, de nombreux changements hormonaux se produisent chez les femmes. Les premiers symptômes de la grossesse comprennent les nausées, les vomissements, la miction fréquente et la fatigue, dont nous discuterons dans cet article de blog. -erreur |
Comme on peut le voir à partir de la sortie hindi ci-dessus, en utilisant l'incorporation de Gemini, nous obtenons 5 sorties correctes de 7 requêtes, tout en utilisant l'incorporation de Jina AI et un grand E5-E5, nous n'obtenons que 3 réponses correctes.
Cela montre que, comme en témoigne le référence MTEB, les intégres Gemini fonctionnent bien et génèrent des multilingues telles que Hindi mieux que les autres modèles d'incorporation.
En bref, l'intégration des Gémeaux représente une progression significative de la PNL multilingue, en particulier pour les langues hindi telles que l'hindi. Avec ses fortes capacités multilingues, son support pour les grandes tailles d'entrée et ses performances supérieures dans les références telles que le MTEB, les gemini excellent dans des tâches telles que la récupération, la classification et la recherche sémantique. Grâce à des comparaisons pratiques, les performances de Gemini sont meilleures que les autres modèles, offrant une précision et une efficacité plus élevées, ce qui en fait un outil précieux pour promouvoir la PNL multilingue.
Les médias présentés dans cet article ne appartiennent pas à l'analytique vidhya et peuvent être utilisés à la discrétion de l'auteur.
Q1. Quel est le modèle d'intégration des Gémeaux? R: Le modèle d'incorporation des Gémeaux est basé sur Gemini AI de Google et fournit des intérêts de texte multilingue de premier ordre pour plus de 100 langues, y compris l'hindi.
Q2. Qu'est-ce qui est unique dans l'intégration des Gémeaux par rapport à d'autres modèles? R: L'intégration des Gemini excelle dans le support multilingue, peut traiter 8000 marqueurs et sortir 3072 dimensions, assurant l'efficacité de la classification, de la récupération et de la recherche sémantique.
Q3. Comment l'intégration des Gémeaux fonctionne-t-elle dans des tâches multilingues? Réponse: L'intégration des Gémeaux fonctionne bien dans les langues à haute ressource telles que l'anglais et les langues à faible ressource telles que l'assamais et le macédonien. Il se classe numéro un sur le classement multilingue MTEB, démontrant ses puissantes capacités multilingues.
Q4. Quelle est l'architecture du modèle d'intégration des Gémeaux? R: Le modèle est initialisé à partir de Gemini LLM et utilise une architecture de transformateur avec une attention bidirectionnelle pour générer des incorporations de texte de haute qualité qui capturent le contexte et le sens.
Q5. Comment le modèle d'intégration des Gémeaux est-il formé? R: L'intégration des Gémeaux utilise la perte d'estimation de comparaison du bruit (NCE) avec des exemples négatifs en lots pour la formation. Il passe par deux phases de formation: pré-fini sur un grand ensemble de données et des ensembles de données spécifiques aux tâches pour améliorer les performances de la PNL.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!