Jamba 1.5: avec l'architecture hybride de transformateur mamba-IA-php.cn

Jamba 1.5: avec l'architecture hybride de transformateur mamba

William Shakespeare

Libérer： 2025-03-19 11:15:13

original

535 Les gens l'ont consulté

Jamba 1.5: un puissant modèle de langue hybride pour le traitement à long contexte

Jamba 1.5, un modèle de grande langue de pointe des laboratoires AI21, possède des capacités impressionnantes pour gérer des contextes de texte étendus. Disponible en deux versions - Jamba 1,5 grand (94 milliards de paramètres) et Jamba 1.5 Mini (12 milliards de paramètres) - il exploite une architecture hybride unique combinant le modèle d'espace d'état structuré Mamba (SSM) avec l'architecture transformateur traditionnelle. Cette approche innovante permet le traitement d'une fenêtre de contexte efficace de 256K sans précédent, un saut significatif pour les modèles open-source.

Jamba 1.5: avec l'architecture hybride Mamba-Transformateur

Caractéristiques et capacités clés:

Fenêtre de contexte massive: traite jusqu'à 256k jetons, idéal pour des documents longs et des tâches complexes.
Architecture hybride: combine les forces des modèles Transformer et Mamba pour une efficacité et des performances optimales.
Quantification efficace: utilise une quantification des experts8 pour une empreinte de la mémoire réduite et un traitement plus rapide.
Support multilingue: fonctionne efficacement dans neuf langues: anglais, espagnol, français, portugais, italien, néerlandais, allemand, arabe et hébreu.
Applications polyvalentes: Convient à un large éventail de tâches PNL, y compris la réponse aux questions, le résumé, la génération de texte et la classification.
Déploiement accessible: Disponible via l'API Studio d'Ai21, les étreintes et les partenaires cloud.

Détails architecturaux:

Jamba 1.5: avec l'architecture hybride de transformateur mamba

Aspect	Détails
Architecture de base	Architecture de transformateur hybride-mamba avec un module de mélange d'Experts (MOE)
Variantes du modèle	JAMBA-1,5-GARD (94B Paramètres actifs, 398b au total) et Jamba-1,5-MinI (paramètres actifs 12b, 52b au total)
Composition de la couche	9 blocs, chacun avec 8 couches; Ratio 1: 7 du transformateur en couches mamba
Mélange d'experts (MOE)	16 experts, sélectionnant le top 2 par jeton
Dimensions cachées	8192
Têtes d'attention	64 têtes de requête, 8 têtes de valeur clé
Durée du contexte	Jusqu'à 256K jetons
Technique de quantification	Expertsnt8 pour les couches MLP et MLP
Fonction d'activation	Activations de transformateur et de mamba intégrés
Efficacité	Optimisé pour un débit élevé et une faible latence sur des GPU 8x80 Go

Accéder et utiliser Jamba 1.5:

Jamba 1.5 est facilement accessible via l'API Studio d'Ai21 et le visage étreint. Le modèle peut être affiné pour des domaines spécifiques afin d'améliorer encore les performances. Un exemple Python utilisant l'API AI21 est fourni ci-dessous:

Exemple de Python:

 à partir de l'importation AI21 AI21Client
à partir de AI21.Models.Chat Importer ChatMessage

Messages = [ChatMessage (content = "Qu'est-ce qu'un tokenizer dans 2-3 lignes?", Role = "User")]
client = AI21Client (api_key = '') # Remplacez '' par votre clé API
réponse = client.chat.completions.create (
    messages = messages,
    Model = "Jamba-1,5-MinI",
    Stream = vrai
)
pour le morceau en réponse:
    print (chunk.choices [0] .delta.content, end = "")

Copier après la connexion

Jamba 1.5: avec l'architecture hybride de transformateur mamba

Conclusion:

Jamba 1.5 représente un progrès significatif dans les modèles de grande langue, offrant un mélange convaincant de puissance et d'efficacité. Sa capacité à gérer des contextes exceptionnellement longs, associés à ses applications polyvalentes et à ses options de déploiement accessibles, en fait un outil précieux pour une large gamme de tâches PNL.

Questions fréquemment posées (FAQ): (similaire à l'original, mais reformulé pour la concision)

Q1: Qu'est-ce que Jamba 1.5? R: Un modèle de langue de transformateur hybride en grande langue avec des paramètres 94b (grands) ou 12b (mini), optimisé pour l'instruction suivant et traitement à long contexte.
Q2: Comment Jamba 1.5 gère-t-il efficacement les contextes longs? R: Grâce à son architecture hybride et à sa quantification d'experts8, permettant une fenêtre de contexte de jeton 256K avec une utilisation réduite de la mémoire.
Q3: Qu'est-ce que la quantification des experts8? R: Une technique de compression utilisant la précision INT8 dans les couches MOE et MLP pour une efficacité améliorée.
Q4: Jamba 1.5 est-il accessible au public? R: Oui, sous la licence de modèle Open Jamba, accessible via des câlins.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!