Lassen Sie mich vor diesem Blog Folgendes sagen: ist nicht wie in meinen anderen Blogs, in denen ich die Schritte durchgehen konnte, die ich zur Erledigung einer Aufgabe unternommen habe. Stattdessen ist dies eher eine Reflexion über die Herausforderungen, denen ich begegnet bin, als ich versuchte, Tests zu meinem Projekt, gimme_readme, hinzuzufügen, und darüber, was ich dabei über das Testen von LLM-basierten Anwendungen gelernt habe.
Diese Woche wurden meine Klassenkameraden in der Open-Source-Entwicklung und ich damit beauftragt, Tests zu unseren Befehlszeilentools hinzuzufügen, die Large Language Models (LLMs) integrieren. Das schien zunächst unkompliziert, aber es führte mich in ein Kaninchenloch voller Testkomplexitäten, mit denen ich nicht gerechnet hatte.
Als ich gimme_readme zum ersten Mal erstellt habe, habe ich einige grundlegende Tests mit Jest.js hinzugefügt. Diese Tests waren recht einfach und konzentrierten sich hauptsächlich auf Folgendes:
Obwohl diese Tests eine gewisse Abdeckung boten, testeten sie nicht einen der kritischsten Teile meiner Anwendung: die LLM-Interaktionen.
Als ich versuchte, umfassendere Tests hinzuzufügen, stieß ich auf eine interessante Erkenntnis darüber, wie meine Anwendung mit LLMs kommuniziert. Anfangs dachte ich, ich könnte Nock.js verwenden, um die HTTP-Anfragen an diese Sprachmodelle zu verspotten. Schließlich ist Nock darin großartig: HTTP-Anfragen zu Testzwecken abzufangen und zu verspotten.
Ich habe jedoch festgestellt, dass die Art und Weise, wie ich LLM verwende, es mir schwer macht, Tests mit Nock zu schreiben. Das Dilemma zwischen SDK und direkten HTTP-Anfragen
. Dies macht den Code zwar sauberer und erleichtert die Arbeit mit ihm in der Produktion, stellt aber auch eine interessante Testherausforderung dar. Betrachten Sie diese beiden Ansätze zur Implementierung der LLM-Funktionalität:
// Approach 1: Using SDK const groq = new Groq({ apiKey }); const response = await groq.chat.completions.create({ messages: [{ role: "user", content: prompt }], model: "mixtral-8x7b-32768" }); // Approach 2: Direct HTTP requests const response = await fetch('https://api.groq.com/v1/completions', { method: 'POST', headers: { 'Authorization': `Bearer ${apiKey}`, 'Content-Type': 'application/json' }, body: JSON.stringify({ messages: [{ role: "user", content: prompt }], model: "mixtral-8x7b-32768" }) });
. Gelernte Lektionen
: Überlegen Sie bei der Wahl zwischen SDKs und direkten HTTP-Anfragen, wie Sie die Implementierung testen. Manchmal macht der „sauberere“ Produktionscode das Testen schwieriger.
SDK-Tests erfordern unterschiedliche Tools: Wenn Sie SDKs verwenden, müssen Sie auf SDK-Ebene statt auf HTTP-Ebene simulieren. Das bedeutet:
Gleichgewicht zwischen Komfort und Testbarkeit: Während SDKs eine großartige Entwicklererfahrung bieten, können sie bestimmte Testansätze schwieriger machen. Es lohnt sich, diesen Kompromiss bei der Architektur Ihrer Anwendung zu berücksichtigen.
Obwohl ich meine Testherausforderungen noch nicht vollständig gelöst habe, habe ich durch diese Erfahrung wertvolle Lektionen über das Testen von Anwendungen gelernt, die auf externen Diensten über SDKs basieren. Für alle, die ähnliche Anwendungen erstellen, würde ich Folgendes empfehlen:
Das Testen von LLM-Anwendungen stellt einzigartige Herausforderungen dar, insbesondere wenn moderne Entwicklungsfunktionen wie SDKs mit der Notwendigkeit gründlicher Tests in Einklang gebracht werden müssen. Während ich immer noch daran arbeite, die Testabdeckung für gimme_readme zu verbessern, habe ich durch diese Erfahrung ein besseres Verständnis dafür gewonnen, wie ich Tests in zukünftigen Projekten angehen soll, die externe Dienste und SDKs beinhalten.
Ist jemand beim Testen von Anwendungen, die LLM-SDKs verwenden, auf ähnliche Herausforderungen gestoßen? Ich freue mich über eure Erfahrungen und Lösungen in den Kommentaren!
Das obige ist der detaillierte Inhalt vonTesten von LLM-Anwendungen: Missgeschicke beim Verspotten von SDKs im Vergleich zu direkten HTTP-Anfragen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!