Permettez-moi de commencer ce blog en disant que ce n'est pas comme mes autres blogs où j'ai pu parcourir les étapes que j'ai suivies pour accomplir une tâche. Il s'agit plutôt d'une réflexion sur les défis que j'ai rencontrés en essayant d'ajouter des tests à mon projet, gimme_readme, et sur ce que j'ai appris sur les tests d'applications basées sur LLM en cours de route.
Cette semaine, mes camarades de classe de développement Open Source et moi avons été chargés d'ajouter des tests à nos outils de ligne de commande qui intègrent des modèles de langage étendus (LLM). Cela semblait simple au début, mais cela m'a conduit dans un terrier de tests complexes que je n'avais pas anticipés.
Lorsque j'ai créé gimme_readme pour la première fois, j'ai ajouté quelques tests de base en utilisant Jest.js. Ces tests étaient assez simples et se concentraient principalement sur :
Bien que ces tests aient fourni une certaine couverture, ils ne testaient pas l'une des parties les plus critiques de ma candidature : les interactions LLM.
En essayant d'ajouter des tests plus complets, j'ai découvert une réalisation intéressante sur la façon dont mon application communique avec les LLM. Au départ, je pensais pouvoir utiliser Nock.js pour simuler les requêtes HTTP adressées à ces modèles de langage. Après tout, c'est pour cela que Nock est excellent : intercepter et se moquer des requêtes HTTP à des fins de test.
Cependant, j'ai découvert que la façon dont j'utilise le LLM me rend difficile l'écriture de tests avec Nock.
C'est ici que les choses deviennent intéressantes. Mon application utilise des clients SDK officiels fournis par les services LLM tels que Gemini et Groq de Google. Ces SDK agissent comme des couches d'abstraction qui gèrent toutes les communications HTTP en coulisses. Bien que cela rende le code plus propre et plus facile à utiliser en production, cela crée un défi de test intéressant.
Considérez ces deux approches pour implémenter la fonctionnalité LLM :
// Approach 1: Using SDK const groq = new Groq({ apiKey }); const response = await groq.chat.completions.create({ messages: [{ role: "user", content: prompt }], model: "mixtral-8x7b-32768" }); // Approach 2: Direct HTTP requests const response = await fetch('https://api.groq.com/v1/completions', { method: 'POST', headers: { 'Authorization': `Bearer ${apiKey}`, 'Content-Type': 'application/json' }, body: JSON.stringify({ messages: [{ role: "user", content: prompt }], model: "mixtral-8x7b-32768" }) });
L'approche SDK est plus propre et offre une meilleure expérience aux développeurs, mais elle rend les outils de simulation HTTP traditionnels comme Nock moins utiles. Les requêtes HTTP se produisent à l'intérieur du SDK, ce qui les rend plus difficiles à intercepter avec Nock.
Envisagez dès le début une stratégie de test : lorsque vous choisissez entre les SDK et les requêtes HTTP directes, réfléchissez à la manière dont vous allez tester la mise en œuvre. Parfois, le code de production « plus propre » peut rendre les tests plus difficiles.
Les tests du SDK nécessitent différents outils : lorsque vous utilisez des SDK, vous devez vous moquer du niveau du SDK plutôt que du niveau HTTP. Cela signifie :
Équilibre entre commodité et testabilité : bien que les SDK offrent une excellente expérience aux développeurs, ils peuvent rendre certaines approches de test plus difficiles. Cela vaut la peine de considérer ce compromis lors de la conception de votre application.
Bien que je n'aie pas encore entièrement résolu mes défis en matière de tests, cette expérience m'a appris de précieuses leçons sur les tests d'applications qui s'appuient sur des services externes via des SDK. À tous ceux qui créent des applications similaires, je recommanderais :
Le test des applications LLM présente des défis uniques, en particulier lorsqu'il s'agit de trouver un équilibre entre les commodités de développement modernes telles que les SDK et la nécessité de tests approfondis. Alors que je travaille toujours à l'amélioration de la couverture des tests pour gimme_readme, cette expérience m'a permis de mieux comprendre comment aborder les tests dans les futurs projets impliquant des services externes et des SDK.
Quelqu'un d'autre a-t-il rencontré des défis similaires lors du test d'applications utilisant les SDK LLM ? J'aimerais entendre parler de vos expériences et de vos solutions dans les commentaires !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!