Compilé | Produit par Xingxuan
| 51CTO Technology Stack (WeChat ID : blog51cto)
Au cours des deux dernières années, j'ai été davantage impliqué dans des projets d'IA générative utilisant de grands modèles de langage (LLM) et des systèmes non conventionnels . Le cloud computing sans serveur commence à me manquer. Leurs applications vont de l’amélioration de l’IA conversationnelle à la fourniture de solutions d’analyse complexes pour diverses industries, ainsi que de nombreuses autres fonctionnalités. De nombreuses entreprises déploient ces modèles sur des plates-formes cloud, car les fournisseurs de cloud public fournissent déjà un écosystème prêt à l'emploi et constituent la voie de moindre résistance. Cependant, cela n’est pas bon marché.
Le cloud offre également d'autres avantages tels que l'évolutivité, l'efficacité et la puissance de calcul avancée (GPU à la demande). Le processus de déploiement de LLM sur une plateforme de cloud public recèle des secrets peu connus qui peuvent avoir un impact significatif sur le succès ou l'échec. Peut-être parce qu’il n’y a pas beaucoup d’experts en IA qui s’occupent des LLM et parce que nous n’avons pas encore beaucoup d’expérience dans ce domaine, il existe de nombreuses lacunes dans notre système de connaissances.
Explorons trois « astuces » peu connues lors du déploiement de LLM sur le cloud, peut-être que même vos ingénieurs en IA ne le savent pas. Étant donné que ces ingénieurs gagnent souvent plus de 300 000 $ par an, il est peut-être temps de réfléchir aux détails de ce qu'ils font. Je vois tout le monde se précipiter pour devenir une IA comme si ses cheveux étaient en feu, mais faire plus d'erreurs que jamais.
L'un des principaux attraits du déploiement de LLM sur des plateformes cloud est la possibilité de faire évoluer les ressources à la demande. Nous n’avons pas besoin d’être de bons planificateurs de capacité, car les plateformes cloud disposent de ressources sur lesquelles il suffit de cliquer avec la souris ou que nous allouons automatiquement.
Cependant, attendez, nous sommes sur le point de commettre la même erreur que celle que nous avons commise en utilisant le cloud computing. La gestion des coûts tout en évoluant est une compétence que de nombreuses personnes ont besoin d'aide pour maîtriser efficacement. Notez que les services cloud sont généralement facturés en fonction des ressources informatiques consommées ; ils fonctionnent comme des utilitaires. Plus vous traitez, plus vous payez. Étant donné que les GPU coûtent plus cher (et consomment plus d’énergie), il s’agit d’une préoccupation majeure lors de l’utilisation des LLM fournis par les fournisseurs de cloud public.
Veuillez vous assurer d'utiliser des outils de gestion des coûts, y compris ceux fournis par les plateformes cloud et les outils fournis par des fournisseurs de services tiers fiables de gouvernance et de surveillance des coûts (finops). Par exemple, mettez en œuvre une mise à l'échelle et une planification automatiques, choisissez le bon type d'instance ou utilisez des instances préemptives pour optimiser les coûts. N'oubliez pas non plus de surveiller en permanence votre déploiement et d'ajuster les ressources en fonction de l'utilisation plutôt que de la simple charge prévue. Cela signifie éviter à tout prix le surprovisionnement (vous comprenez mon jeu de mots ici ?).
Le déploiement de LLM implique souvent le traitement de grandes quantités de données et la formation de modèles de connaissances, qui peuvent contenir des données sensibles ou propriétaires. Le risque lié à l'utilisation d'un cloud public est que vos « voisins » se présentent sous la forme d'instances de traitement exécutées sur le même matériel physique. Par conséquent, le stockage dans le cloud public comporte le risque que, pendant le stockage et le traitement des données, celles-ci soient accessibles par d'autres machines virtuelles exécutées sur le même matériel physique dans le centre de données du cloud public. Pour résoudre ce problème, de nombreux fournisseurs de cloud public proposent des options de sécurité cloud aux entreprises. Ces options assurent l'isolation et la protection de vos données contre l'accès par d'autres machines virtuelles exécutées sur le matériel physique. Un autre problème de sécurité concerne la transmission des données pendant le stockage et le traitement. Les données peuvent être transmises sur des réseaux cloud publics, ce qui signifie qu'elles peuvent être interceptées ou écoutées pendant la transmission. Pour résoudre ce problème, les cloud publics fournissent généralement des protocoles de cryptage et de transmission sécurisés pour protéger la sécurité des données pendant la transmission. Dans l'ensemble, déployer des LLM
Si vous interrogez un fournisseur de cloud public à ce sujet, il se précipitera avec sa dernière présentation PowerPoint montrant à quel point c'est impossible. Même si cela est en grande partie vrai, ce n’est pas tout à fait exact. Ce risque existe avec tous les systèmes multi-locataires ; vous devez l'atténuer. J'ai constaté que plus le fournisseur de cloud est petit, comme ceux qui n'opèrent que dans un seul pays, plus la probabilité que ce problème se produise est grande. Cela s'applique aux magasins de données et aux LLM.
Le secret est de choisir un fournisseur de cloud qui respecte et prouve des normes de sécurité strictes : cryptage des données au repos et en transit, gestion des identités et des accès (IAM) et politiques d'isolement. Bien entendu, il est préférable de mettre en œuvre votre propre politique de sécurité et votre propre pile technologique de sécurité pour garantir que l'utilisation de LLM multi-tenants sur le cloud est moins risquée.
Les grands modèles de langage (LLM) sont pour la plupart avec état, ce qui signifie qu'ils conservent les informations d'une interaction à la suivante. Cette ancienne approche offre de nouveaux avantages : la capacité d'être plus efficace dans des scénarios d'apprentissage continu. Cependant, la gestion de l'état de ces modèles dans les environnements cloud est difficile, car les instances dans les environnements cloud peuvent être éphémères ou sans état de par leur conception.
Les outils d'orchestration prenant en charge le déploiement avec état (tels que Kubernetes) sont utiles. Ils peuvent exploiter les options de stockage persistant pour les grands modèles de langage et être configurés pour maintenir et manipuler leur état au fil des sessions. Vous devez le faire afin de prendre en charge la continuité et les performances des grands modèles de langage.
Avec la croissance explosive de l'intelligence artificielle générative, le déploiement de grands modèles de langage sur des plateformes cloud est une fatalité. Pour la plupart des entreprises, ne pas utiliser le cloud est tout simplement trop gênant. Ce qui m’inquiète dans la frénésie qui s’ensuit, c’est que nous passerons à côté de problèmes faciles à résoudre et que nous commettrons des erreurs énormes et coûteuses qui, en fin de compte, sont pour la plupart évitables.
Pour en savoir plus sur l'AIGC, veuillez visiter :
Communauté 51CTO AI.x
https://www.51cto.com/aigc/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!