La contribution open source d'Apple au champ du modèle grand langage (LLM), DCLM-7B, marque une étape importante vers la démocratiser l'IA. Ce modèle de paramètres de 7 milliards, publié sous la licence de code d'échantillon Apple, offre aux chercheurs et aux développeurs un outil puissant et accessible pour diverses tâches de traitement du langage naturel (NLP).
Les fonctionnalités clés de DCLM-7B incluent son architecture de transformateur uniquement au décodeur - similaire à ChatGPT et GPT-4 - optimisé pour générer du texte cohérent. Formé sur un ensemble de données massif de 2,5 billions de jetons, il possède une compréhension robuste de l'anglais, ce qui le rend adapté à un réglage fin sur des tâches spécifiques. Alors que le modèle de base dispose d'une fenêtre de contexte 2048-token, une variante avec une fenêtre de jeton 8K offre des capacités améliorées pour le traitement des textes plus longs.
Début et utilisation:
DCLM-7B s'intègre parfaitement à la bibliothèque Transformers de Hugging Face. L'installation nécessite pip install transformers
et pip install git https://github.com/mlfoundations/open_lm.git
. En raison de sa taille (environ 27,5 Go), un système de haute rame / VRAM ou un environnement cloud est recommandé.
Un exemple de base, en utilisant le code de la page Web d'étreinte, démontre sa fonctionnalité:
from open_lm.hf import * from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("apple/DCLM-Baseline-7B") model = AutoModelForCausalLM.from_pretrained("apple/DCLM-Baseline-7B") inputs = tokenizer(["Machine learning is"], return_tensors="pt") gen_kwargs = {"max_new_tokens": 50, "top_p": 0.8, "temperature": 0.8, "do_sample": True, "repetition_penalty": 1.1} output = model.generate(inputs['input_ids'], **gen_kwargs) output = tokenizer.decode(output[0].tolist(), skip_special_tokens=True) print(output)
Fine-réglage (aperçu):
Bien que le DCLM-7B finisse par affaire exige des ressources substantielles, le processus consiste à utiliser la bibliothèque transformers
et un ensemble de données (par exemple, à partir de la bibliothèque datasets
de Hugging Face wikitext
, comme TrainingArguments
). Les étapes incluent la préparation de l'ensemble de données (tokenisation) et l'utilisation d'objets Trainer
et
Conclusion:
DCLM-7B d'Apple représente une contribution précieuse à la communauté LLM open-source. Son accessibilité, associée à ses performances et à l'architecture, la positionne comme un outil solide pour la recherche et le développement dans diverses applications PNL. La nature open source favorise la collaboration et accélère l'innovation dans le domaine de l'IA.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!