Maison > Périphériques technologiques > IA > DCLM-7B d'Apple & # x27;

DCLM-7B d'Apple & # x27;

Jennifer Aniston
Libérer: 2025-03-04 09:30:12
original
894 Les gens l'ont consulté

La contribution open source d'Apple au champ du modèle grand langage (LLM), DCLM-7B, marque une étape importante vers la démocratiser l'IA. Ce modèle de paramètres de 7 milliards, publié sous la licence de code d'échantillon Apple, offre aux chercheurs et aux développeurs un outil puissant et accessible pour diverses tâches de traitement du langage naturel (NLP).

Les fonctionnalités clés de DCLM-7B incluent son architecture de transformateur uniquement au décodeur - similaire à ChatGPT et GPT-4 - optimisé pour générer du texte cohérent. Formé sur un ensemble de données massif de 2,5 billions de jetons, il possède une compréhension robuste de l'anglais, ce qui le rend adapté à un réglage fin sur des tâches spécifiques. Alors que le modèle de base dispose d'une fenêtre de contexte 2048-token, une variante avec une fenêtre de jeton 8K offre des capacités améliorées pour le traitement des textes plus longs.

Apple's DCLM-7B: Setup, Example Usage, Fine-Tuning

Début et utilisation:

DCLM-7B s'intègre parfaitement à la bibliothèque Transformers de Hugging Face. L'installation nécessite pip install transformers et pip install git https://github.com/mlfoundations/open_lm.git. En raison de sa taille (environ 27,5 Go), un système de haute rame / VRAM ou un environnement cloud est recommandé.

Un exemple de base, en utilisant le code de la page Web d'étreinte, démontre sa fonctionnalité:

from open_lm.hf import *
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("apple/DCLM-Baseline-7B")
model = AutoModelForCausalLM.from_pretrained("apple/DCLM-Baseline-7B")

inputs = tokenizer(["Machine learning is"], return_tensors="pt")
gen_kwargs = {"max_new_tokens": 50, "top_p": 0.8, "temperature": 0.8, "do_sample": True, "repetition_penalty": 1.1}
output = model.generate(inputs['input_ids'], **gen_kwargs)
output = tokenizer.decode(output[0].tolist(), skip_special_tokens=True)
print(output)
Copier après la connexion

Fine-réglage (aperçu):

Bien que le DCLM-7B finisse par affaire exige des ressources substantielles, le processus consiste à utiliser la bibliothèque transformers et un ensemble de données (par exemple, à partir de la bibliothèque datasets de Hugging Face wikitext, comme TrainingArguments). Les étapes incluent la préparation de l'ensemble de données (tokenisation) et l'utilisation d'objets Trainer et

pour le processus de réglage fin lui-même. Cela nécessite une puissance de calcul significative et n'est pas détaillé ici en raison de sa complexité.

Conclusion:

DCLM-7B d'Apple représente une contribution précieuse à la communauté LLM open-source. Son accessibilité, associée à ses performances et à l'architecture, la positionne comme un outil solide pour la recherche et le développement dans diverses applications PNL. La nature open source favorise la collaboration et accélère l'innovation dans le domaine de l'IA.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal