Trois secrets pour déployer de grands modèles dans le cloud
Compilé | Produit par Xingxuan
| 51CTO Technology Stack (WeChat ID : blog51cto)
Au cours des deux dernières années, j'ai été davantage impliqué dans des projets d'IA générative utilisant de grands modèles de langage (LLM) et des systèmes non conventionnels . Le cloud computing sans serveur commence à me manquer. Leurs applications vont de l’amélioration de l’IA conversationnelle à la fourniture de solutions d’analyse complexes pour diverses industries, ainsi que de nombreuses autres fonctionnalités. De nombreuses entreprises déploient ces modèles sur des plates-formes cloud, car les fournisseurs de cloud public fournissent déjà un écosystème prêt à l'emploi et constituent la voie de moindre résistance. Cependant, cela n’est pas bon marché.
Le cloud offre également d'autres avantages tels que l'évolutivité, l'efficacité et la puissance de calcul avancée (GPU à la demande). Le processus de déploiement de LLM sur une plateforme de cloud public recèle des secrets peu connus qui peuvent avoir un impact significatif sur le succès ou l'échec. Peut-être parce qu’il n’y a pas beaucoup d’experts en IA qui s’occupent des LLM et parce que nous n’avons pas encore beaucoup d’expérience dans ce domaine, il existe de nombreuses lacunes dans notre système de connaissances.
Explorons trois « astuces » peu connues lors du déploiement de LLM sur le cloud, peut-être que même vos ingénieurs en IA ne le savent pas. Étant donné que ces ingénieurs gagnent souvent plus de 300 000 $ par an, il est peut-être temps de réfléchir aux détails de ce qu'ils font. Je vois tout le monde se précipiter pour devenir une IA comme si ses cheveux étaient en feu, mais faire plus d'erreurs que jamais.
1. Rentabilité et évolutivité de la gestion
L'un des principaux attraits du déploiement de LLM sur des plateformes cloud est la possibilité de faire évoluer les ressources à la demande. Nous n’avons pas besoin d’être de bons planificateurs de capacité, car les plateformes cloud disposent de ressources sur lesquelles il suffit de cliquer avec la souris ou que nous allouons automatiquement.
Cependant, attendez, nous sommes sur le point de commettre la même erreur que celle que nous avons commise en utilisant le cloud computing. La gestion des coûts tout en évoluant est une compétence que de nombreuses personnes ont besoin d'aide pour maîtriser efficacement. Notez que les services cloud sont généralement facturés en fonction des ressources informatiques consommées ; ils fonctionnent comme des utilitaires. Plus vous traitez, plus vous payez. Étant donné que les GPU coûtent plus cher (et consomment plus d’énergie), il s’agit d’une préoccupation majeure lors de l’utilisation des LLM fournis par les fournisseurs de cloud public.
Veuillez vous assurer d'utiliser des outils de gestion des coûts, y compris ceux fournis par les plateformes cloud et les outils fournis par des fournisseurs de services tiers fiables de gouvernance et de surveillance des coûts (finops). Par exemple, mettez en œuvre une mise à l'échelle et une planification automatiques, choisissez le bon type d'instance ou utilisez des instances préemptives pour optimiser les coûts. N'oubliez pas non plus de surveiller en permanence votre déploiement et d'ajuster les ressources en fonction de l'utilisation plutôt que de la simple charge prévue. Cela signifie éviter à tout prix le surprovisionnement (vous comprenez mon jeu de mots ici ?).
2. Confidentialité des données dans les environnements multi-locataires
Le déploiement de LLM implique souvent le traitement de grandes quantités de données et la formation de modèles de connaissances, qui peuvent contenir des données sensibles ou propriétaires. Le risque lié à l'utilisation d'un cloud public est que vos « voisins » se présentent sous la forme d'instances de traitement exécutées sur le même matériel physique. Par conséquent, le stockage dans le cloud public comporte le risque que, pendant le stockage et le traitement des données, celles-ci soient accessibles par d'autres machines virtuelles exécutées sur le même matériel physique dans le centre de données du cloud public. Pour résoudre ce problème, de nombreux fournisseurs de cloud public proposent des options de sécurité cloud aux entreprises. Ces options assurent l'isolation et la protection de vos données contre l'accès par d'autres machines virtuelles exécutées sur le matériel physique. Un autre problème de sécurité concerne la transmission des données pendant le stockage et le traitement. Les données peuvent être transmises sur des réseaux cloud publics, ce qui signifie qu'elles peuvent être interceptées ou écoutées pendant la transmission. Pour résoudre ce problème, les cloud publics fournissent généralement des protocoles de cryptage et de transmission sécurisés pour protéger la sécurité des données pendant la transmission. Dans l'ensemble, déployer des LLM
Si vous interrogez un fournisseur de cloud public à ce sujet, il se précipitera avec sa dernière présentation PowerPoint montrant à quel point c'est impossible. Même si cela est en grande partie vrai, ce n’est pas tout à fait exact. Ce risque existe avec tous les systèmes multi-locataires ; vous devez l'atténuer. J'ai constaté que plus le fournisseur de cloud est petit, comme ceux qui n'opèrent que dans un seul pays, plus la probabilité que ce problème se produise est grande. Cela s'applique aux magasins de données et aux LLM.
Le secret est de choisir un fournisseur de cloud qui respecte et prouve des normes de sécurité strictes : cryptage des données au repos et en transit, gestion des identités et des accès (IAM) et politiques d'isolement. Bien entendu, il est préférable de mettre en œuvre votre propre politique de sécurité et votre propre pile technologique de sécurité pour garantir que l'utilisation de LLM multi-tenants sur le cloud est moins risquée.
3. Gérer le déploiement de modèles avec état
Les grands modèles de langage (LLM) sont pour la plupart avec état, ce qui signifie qu'ils conservent les informations d'une interaction à la suivante. Cette ancienne approche offre de nouveaux avantages : la capacité d'être plus efficace dans des scénarios d'apprentissage continu. Cependant, la gestion de l'état de ces modèles dans les environnements cloud est difficile, car les instances dans les environnements cloud peuvent être éphémères ou sans état de par leur conception.
Les outils d'orchestration prenant en charge le déploiement avec état (tels que Kubernetes) sont utiles. Ils peuvent exploiter les options de stockage persistant pour les grands modèles de langage et être configurés pour maintenir et manipuler leur état au fil des sessions. Vous devez le faire afin de prendre en charge la continuité et les performances des grands modèles de langage.
Avec la croissance explosive de l'intelligence artificielle générative, le déploiement de grands modèles de langage sur des plateformes cloud est une fatalité. Pour la plupart des entreprises, ne pas utiliser le cloud est tout simplement trop gênant. Ce qui m’inquiète dans la frénésie qui s’ensuit, c’est que nous passerons à côté de problèmes faciles à résoudre et que nous commettrons des erreurs énormes et coûteuses qui, en fin de compte, sont pour la plupart évitables.
Pour en savoir plus sur l'AIGC, veuillez visiter :
Communauté 51CTO AI.x
https://www.51cto.com/aigc/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Les modèles de langage raisonnent sur le texte, qui se présente généralement sous la forme de chaînes, mais l'entrée du modèle ne peut être que des nombres, le texte doit donc être converti sous forme numérique. La tokenisation est une tâche fondamentale du traitement du langage naturel. Elle peut diviser une séquence de texte continue (telle que des phrases, des paragraphes, etc.) en une séquence de caractères (telle que des mots, des phrases, des caractères, des signes de ponctuation, etc.) en fonction de besoins spécifiques. Les unités qu'il contient sont appelées un jeton ou un mot. Selon le processus spécifique illustré dans la figure ci-dessous, les phrases de texte sont d'abord divisées en unités, puis les éléments individuels sont numérisés (mappés en vecteurs), puis ces vecteurs sont entrés dans le modèle pour le codage, et enfin sortis vers des tâches en aval pour obtenir en outre le résultat final. La segmentation du texte peut être divisée en Toke en fonction de la granularité de la segmentation du texte.

Comment utiliser Vue pour le cryptage des données et la transmission sécurisée Introduction : Avec le développement d'Internet, la sécurité des données fait l'objet de plus en plus d'attention. Dans le développement d'applications Web, le cryptage des données et la transmission sécurisée sont des moyens importants pour protéger la confidentialité des utilisateurs et les informations sensibles. En tant que framework JavaScript populaire, Vue fournit une multitude d'outils et de plug-ins qui peuvent nous aider à chiffrer les données et à sécuriser la transmission. Cet article expliquera comment utiliser Vue pour le cryptage des données et la transmission sécurisée, et fournira des exemples de code à titre de référence. 1. Cryptage des données et cryptage des données

L'ensemble de données ScienceAI Question Answering (QA) joue un rôle essentiel dans la promotion de la recherche sur le traitement du langage naturel (NLP). Des ensembles de données d'assurance qualité de haute qualité peuvent non seulement être utilisés pour affiner les modèles, mais également évaluer efficacement les capacités des grands modèles linguistiques (LLM), en particulier la capacité à comprendre et à raisonner sur les connaissances scientifiques. Bien qu’il existe actuellement de nombreux ensembles de données scientifiques d’assurance qualité couvrant la médecine, la chimie, la biologie et d’autres domaines, ces ensembles de données présentent encore certaines lacunes. Premièrement, le formulaire de données est relativement simple, et la plupart sont des questions à choix multiples. Elles sont faciles à évaluer, mais limitent la plage de sélection des réponses du modèle et ne peuvent pas tester pleinement la capacité du modèle à répondre aux questions scientifiques. En revanche, les questions et réponses ouvertes

Compilation|Produit par Xingxuan|51CTO Technology Stack (ID WeChat : blog51cto) Au cours des deux dernières années, j'ai été davantage impliqué dans des projets d'IA générative utilisant de grands modèles de langage (LLM) plutôt que des systèmes traditionnels. Le cloud computing sans serveur commence à me manquer. Leurs applications vont de l’amélioration de l’IA conversationnelle à la fourniture de solutions d’analyse complexes pour diverses industries, ainsi que de nombreuses autres fonctionnalités. De nombreuses entreprises déploient ces modèles sur des plates-formes cloud, car les fournisseurs de cloud public fournissent déjà un écosystème prêt à l'emploi et constituent la voie de moindre résistance. Cependant, cela n’est pas bon marché. Le cloud offre également d'autres avantages tels que l'évolutivité, l'efficacité et des capacités informatiques avancées (GPU disponibles sur demande). Il existe certains aspects peu connus du déploiement de LLM sur les plateformes de cloud public

En 2018, Google a publié BERT. Une fois publié, il a vaincu les résultats de pointe (Sota) de 11 tâches PNL d'un seul coup, devenant ainsi une nouvelle étape dans le monde de la PNL. dans la figure ci-dessous, à gauche se trouve le préréglage du modèle BERT, à droite le processus de réglage fin pour des tâches spécifiques. Parmi eux, l'étape de réglage fin est destinée au réglage fin lorsqu'il est ensuite utilisé dans certaines tâches en aval, telles que la classification de texte, le balisage de parties de discours, les systèmes de questions et réponses, etc. BERT peut être affiné sur différents tâches sans ajuster la structure. Grâce à la conception des tâches d'un « modèle de langage pré-entraîné + réglage fin des tâches en aval », il apporte de puissants effets de modèle. Depuis lors, le « modèle linguistique de pré-formation + réglage fin des tâches en aval » est devenu la formation dominante dans le domaine de la PNL.

Les progrès du traitement du langage naturel ces dernières années proviennent en grande partie de modèles de langage à grande échelle. Chaque nouveau modèle publié pousse la quantité de paramètres et de données d'entraînement vers de nouveaux sommets, et en même temps, les classements de référence existants seront abattus ! Par exemple, en avril de cette année, Google a publié le modèle de langage PaLM (Pathways Language Model) composé de 540 milliards de paramètres, qui a surpassé avec succès les humains dans une série de tests de langage et de raisonnement, en particulier ses excellentes performances dans des scénarios d'apprentissage sur petits échantillons. PaLM est considéré comme la direction de développement du modèle de langage de nouvelle génération. De la même manière, les modèles de langage visuel font des merveilles et les performances peuvent être améliorées en augmentant la taille du modèle. Bien sûr, s'il ne s'agit que d'un modèle de langage visuel multitâche

Bonjour à tous, je m'appelle Luga. Aujourd'hui, nous continuerons à explorer les technologies de l'écosystème de l'intelligence artificielle, en particulier LLMFine-Tuning. Cet article continuera à analyser en profondeur la technologie LLMFine-Tuning pour aider chacun à mieux comprendre son mécanisme de mise en œuvre afin qu'elle puisse être mieux appliquée au développement du marché et à d'autres domaines. Les LLM (LargeLanguageModels) sont à la tête d’une nouvelle vague de technologies d’intelligence artificielle. Cette IA avancée simule les capacités cognitives et linguistiques humaines en analysant d’énormes quantités de données à l’aide de modèles statistiques pour apprendre des modèles complexes entre des mots et des phrases. Les puissantes fonctions des LLM ont suscité un vif intérêt de la part de nombreuses grandes entreprises et passionnés de technologie, qui se précipitent pour adopter ces logiciels basés sur l'intelligence artificielle.

À mesure que les modèles de langage évoluent à une échelle sans précédent, un réglage précis des tâches en aval devient prohibitif. Afin de résoudre ce problème, les chercheurs ont commencé à s’intéresser à la méthode PEFT et à l’adopter. L'idée principale de la méthode PEFT est de limiter la portée du réglage fin à un petit ensemble de paramètres afin de réduire les coûts de calcul tout en atteignant des performances de pointe sur les tâches de compréhension du langage naturel. De cette manière, les chercheurs peuvent économiser des ressources informatiques tout en maintenant des performances élevées, ouvrant ainsi la voie à de nouveaux points chauds de recherche dans le domaine du traitement du langage naturel. RoSA est une nouvelle technique PEFT qui, grâce à des expériences sur un ensemble de références, s'est avérée surpasser les précédentes méthodes adaptatives de bas rang (LoRA) et de réglage fin clairsemé pur utilisant le même budget de paramètres. Cet article approfondira
