communauté

Apprendre

Bibliothèque d'outils

Outils d'IA

Loisirs

Français

Maison > Périphériques technologiques > IA > Assez vite ! Le projet open source populaire équivalent à ChatGPT est là, internaute : j'ai peur de ne pas pouvoir l'exécuter

Assez vite ! Le projet open source populaire équivalent à ChatGPT est là, internaute : j'ai peur de ne pas pouvoir l'exécuter

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Libérer： 2023-04-12 15:19:53

avant

1472 Les gens l'ont consulté

Assez vite ! Le projet open source populaire équivalent à ChatGPT est là, internaute : j'ai peur de ne pas pouvoir l'exécuter

Récemment, le programme de chatbot IA ChatGPT développé par OpenAI a balayé les principales communautés d'IA. L'enthousiasme de chacun pour lui n'a fait que croître et ils continuent d'exploiter son potentiel.

Certains chercheurs ne pouvaient pas rester assis et ont commencé à se demander comment développer un logiciel open source équivalent à ChatGPT. Pour ceux qui ne sont pas encore passés à l'action, voici cette fois un exemple de référence Le projet (PaLM + RLHF) que nous présenterons ci-dessous implémente une telle fonction.

Assez vite ! Le projet open source populaire équivalent à ChatGPT est là, internaute : jai peur de ne pas pouvoir lexécuter

Adresse du projet : https://github.com/lucidrains/PaLM-rlhf-pytorch

Ce projet consiste à implémenter le RLHF (Human Feedback Reinforcement Learning) au-dessus de l'architecture PaLM. Fondamentalement identique à ChatGPT, la différence est que PaLM est utilisé. PaLM est un grand modèle de langage avec 540 milliards de paramètres entraînés sur l'architecture générale d'IA de Google « Pathways ». RLHF est l'introduction par ChatGPT de « données artificiellement étiquetées + apprentissage par renforcement » (RLHF) sur la base de la série de modèles GPT 3.5 pour affiner continuellement le modèle de langage pré-entraîné, dans le but de permettre au grand modèle de langage (LLM) d'apprendre pour comprendre les commandes humaines et apprendre à donner la réponse optimale en fonction d'une invite donnée.

Si vous souhaitez en savoir plus sur RLHF, vous pouvez vous référer à : https://huggingface.co/blog/rlhf

Comme le disent les internautes : « Dans le domaine de l'IA, chaque fois qu'il y a une avancée particulière, les développeurs rapidement Une version open source sera reproduite. "

Assez vite ! Le projet open source populaire équivalent à ChatGPT est là, internaute : jai peur de ne pas pouvoir lexécuter

Cependant, le projet ne contient actuellement que l'architecture et le code de formation, sans poids pré-entraînés. Dans la notice d'utilisation, le document montre également que PaLM doit être formé en premier.

Certains internautes ont également exprimé leur inquiétude à ce sujet, en disant : Ce n'est pas un projet prêt à l'emploi, c'est juste une structure, tout comme une coque, sa formation nécessite des frais généraux coûteux. Non. l'organisation peut ressembler à Google Train PaLM de cette façon.

Assez vite ! Le projet open source populaire équivalent à ChatGPT est là, internaute : jai peur de ne pas pouvoir lexécuter

Certains internautes ont déclaré : "C'est très mauvais de ne pas avoir de poids pré-entraînés. Le responsable doit libérer au moins 50 % des poids clairsemés, et laisser les développeurs entraîner le reste par eux-mêmes est la meilleure option."

Assez vite ! Le projet open source populaire équivalent à ChatGPT est là, internaute : jai peur de ne pas pouvoir lexécuter

Cependant, certains internautes ont dit qu'ils allaient l'essayer :

Assez vite ! Le projet open source populaire équivalent à ChatGPT est là, internaute : jai peur de ne pas pouvoir lexécuter

Voyons comment fonctionne ce projet.

Installation

$ pip install palm-rlhf-pytorch

Copier après la connexion

Utilisation

Entraînez d'abord PaLM, comme n'importe quel autre transformateur autorégressif.

import torch
from palm_rlhf_pytorch import PaLM
palm = PaLM(
num_tokens = 20000,
dim = 512,
depth = 12
).cuda()
seq = torch.randint(0, 20000, (1, 2048)).cuda()
loss = palm(seq, return_loss = True)loss.backward()
# after much training, you can now generate sequences
generated = palm.generate(2048) # (1, 2048)

Copier après la connexion

utilise ensuite des commentaires humains sélectionnés pour entraîner le modèle de récompense. Dans l'article original, il n'était pas possible d'obtenir un modèle de récompense affiné à partir d'un transformateur pré-entraîné sans surajustement. Les auteurs du projet offrent la possibilité d'utiliser LoRA pour un réglage fin.

import torch
from palm_rlhf_pytorch import PaLM, RewardModel
palm = PaLM(
num_tokens = 20000,
dim = 512,
depth = 12,
causal = False
)
reward_model = RewardModel(
palm,
num_binned_output = 5 # say rating from 1 to 5
).cuda()
# mock data
seq = torch.randint(0, 20000, (1, 1024)).cuda()prompt_mask = torch.zeros(1, 1024).bool().cuda() # which part of the sequence is prompt, which part is response
labels = torch.randint(0, 5, (1,)).cuda()
# train
loss = reward_model(seq, prompt_mask = prompt_mask, labels = labels)loss.backward()
# after much training
reward = reward_model(seq, prompt_mask = prompt_mask)

Copier après la connexion

Enfin, transmettez le modèle de transformateur et de récompense à RLHFTrainer.

import torch
from palm_rlhf_pytorch import PaLM, RewardModel, RLHFTrainer
# load your pretrained palm
palm = PaLM(
num_tokens = 20000,
dim = 512,
depth = 12
).cuda()
palm.load('./path/to/pretrained/palm.pt')
# load your pretrained reward model
reward_model = RewardModel(
palm,
num_binned_output = 5
).cuda()
reward_model.load('./path/to/pretrained/reward_model.pt')
# ready your list of prompts for reinforcement learning
prompts = torch.randint(0, 256, (50000, 512)).cuda() # 50k prompts
# pass it all to the trainer and train
trainer = RLHFTrainer(
palm = palm,
reward_model = reward_model,
prompt_token_ids = prompts
)
trainer.train(num_episodes = 50000)
# then, if it succeeded...
# generate say 10 samples and use the reward model to return the best one
answer = trainer.generate(2048, prompt = prompts[0], num_samples = 10) # (<= 2048,)

Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées：

ai chatgpt 聊天机器人

Article précédent：Analyse de la technologie de positionnement global basée sur des points caractéristiques de la conduite autonome Article suivant：Comment faire face à l’impact de la crise climatique sur les datacenters ?

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Qu'est-ce qu'une NullPointerException et comment y remédier ?

2024-10-22 09:46:29
De novice à codeur : votre voyage commence par les principes fondamentaux du C

2024-10-13 13:53:41
Débloquer le développement Web avec PHP : guide du débutant

2024-10-12 12:15:51
Démystifier C : un chemin clair et simple pour les nouveaux programmeurs

2024-10-11 22:47:31
Libérez votre potentiel de codage : programmation C pour les débutants absolus

2024-10-11 19:36:51
Libérez votre programmeur intérieur : C pour les débutants absolus

2024-10-11 15:50:41
Automatisez votre vie avec C : scripts et outils pour les débutants

2024-10-11 15:07:41
PHP Made Easy : vos premiers pas dans le développement Web

2024-10-11 14:21:21
Construisez n'importe quoi avec Python : un guide du débutant pour libérer votre créativité

2024-10-11 12:59:11
La clé du codage : libérer la puissance de Python pour les débutants

2024-10-11 12:17:31

Derniers numéros

javascript - Le code pour modifier l'image de la boîte dans la liste déroulante.

Depuis 1970-01-01 08:00:00

0

0

0

Comment ionic2 utilise-t-il les styles d'iOS sur la plateforme Android

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Existe-t-il un excellent outil de point d'arrêt sur NPM?

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Comment Webpack bloque-t-il globalement la valeur de hachage de cette build pour une utilisation par le code JS ?

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Comment jQuery implémente-t-il le préchargement des effets sonores sur les pages mobiles?

Depuis 1970-01-01 08:00:00

0

0

0

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal