LLM アプリケーションのテスト: SDK のモックと直接 HTTP リクエストにおける不運-jsチュートリアル-php.cn

ホームページ

ウェブフロントエンド

jsチュートリアル

LLM アプリケーションのテスト: SDK のモックと直接 HTTP リクエストにおける不運

Barbara Streisand

Dec 04, 2024 am 11:03 AM

Testing LLM Applications: Misadventures in Mocking SDKs vs Direct HTTP Requests

導入

このブログは、タスクを完了するまでの手順を順を追って説明する他のブログとは違うということを前置きさせていただきます。むしろ、これは、プロジェクト gimme_readme にテストを追加しようとして遭遇した課題と、その過程で LLM を利用したアプリケーションのテストについて学んだことを反映したものです。

コンテキスト

今週、オープンソース開発のクラスメートと私は、大規模言語モデル (LLM) を組み込んだコマンドラインツールにテストを追加するという任務を与えられました。最初は簡単そうに見えましたが、予想していなかった複雑なテストのウサギの穴に私を導きました。

私のテストの旅

最初のアプローチ

初めて gimme_readme を構築したとき、Jest.js を使用していくつかの基本的なテストを追加しました。これらのテストは非常に単純で、主に次の点に焦点を当てていました。

関数の出力を検証する
基本的なエラー処理の確認
単純なユーティリティ関数のテスト

これらのテストはある程度の範囲をカバーしましたが、アプリケーションの最も重要な部分の 1 つである LLM インタラクションをテストしていませんでした。

課題: LLM インタラクションのテスト

より包括的なテストを追加しようとしたとき、アプリケーションが LLM とどのように通信するかについて興味深いことに気づきました。当初、私は Nock.js を使用して、これらの言語モデルへの HTTP リクエストを模擬できると考えました。結局のところ、Nock が得意とするのは、テストのために HTTP リクエストをインターセプトしてモックすることです。

しかし、私が LLM を使用している方法では、Nock を使用してテストを書くのが難しくなっていることがわかりました。

SDK とダイレクト HTTP リクエストのジレンマ

ここからが興味深いところです。私のアプリケーションは、Google の Gemini や Groq などの LLM サービスによって提供される公式 SDK クライアントを使用します。これらの SDK は、すべての HTTP 通信をバックグラウンドで処理する抽象化レイヤーとして機能します。これにより、コードがよりクリーンになり、運用環境での作業が容易になりますが、興味深いテスト上の課題が生じます。

LLM 機能を実装するには、次の 2 つのアプローチを検討してください。

// Approach 1: Using SDK
const groq = new Groq({ apiKey });
const response = await groq.chat.completions.create({
  messages: [{ role: "user", content: prompt }],
  model: "mixtral-8x7b-32768"
});

// Approach 2: Direct HTTP requests
const response = await fetch('https://api.groq.com/v1/completions', {
  method: 'POST',
  headers: {
    'Authorization': `Bearer ${apiKey}`,
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    messages: [{ role: "user", content: prompt }],
    model: "mixtral-8x7b-32768"
  })
});

ログイン後にコピー

SDK アプローチはよりクリーンで、開発者エクスペリエンスが向上しますが、Nock のような従来の HTTP モックツールの有用性が低くなります。 HTTP リクエストは SDK 内で発生するため、Nock による傍受が困難になります。

学んだ教訓

早期にテスト戦略を検討する: SDK と直接 HTTP リクエストのどちらを選択する場合は、実装をテストする方法を検討してください。場合によっては、実稼働コードが「よりクリーン」になると、テストがより困難になる場合があります。
SDK テストにはさまざまなツールが必要です: SDK を使用する場合、HTTP レベルではなく SDK レベルでモックする必要があります。これは次のことを意味します:
- SDK クライアント全体をモックする
- HTTP リクエストではなく SDK のインターフェースに焦点を当てます
- HTTP インターセプターの代わりに Jest のモジュールモック機能を使用する
利便性とテスト容易性のバランス: SDK は優れた開発者エクスペリエンスを提供しますが、特定のテスト手法をより困難にする可能性があります。アプリケーションを設計する際には、このトレードオフを考慮する価値があります。

今後の展開

テストの課題はまだ完全には解決していませんが、この経験から、SDK を介した外部サービスに依存するアプリケーションのテストについて貴重な教訓を得ることができました。同様のアプリケーションを構築している人には、以下をお勧めします。

SDK と直接 API 呼び出しのどちらかを選択する場合は、テスト戦略を考慮してください
SDK を使用する場合は、HTTP レベルではなく SDK レベルでモックすることを計画してください
SDK をテストしやすくするために、SDK の周囲に薄いラッパーを作成することを検討してください
プロジェクトに取り組む他の人のためにテストのアプローチを文書化します

結論

LLM アプリケーションのテストには、特に SDK などの最新の開発の利便性と徹底的なテストの必要性のバランスを取る場合に、特有の課題が伴います。私はまだ gimme_readme のテストカバレッジの改善に取り組んでいますが、この経験により、外部サービスや SDK が関与する将来のプロジェクトでのテストへのアプローチ方法についてより深く理解できるようになりました。

LLM SDK を使用するアプリケーションをテストするときに、同様の課題に遭遇した人はいますか?コメントであなたの経験や解決策をぜひお聞かせください!

以上がLLM アプリケーションのテスト: SDK のモックと直接 HTTP リクエストにおける不運の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1664

CakePHP チュートリアル

1423

Laravel チュートリアル

1321

PHP チュートリアル

1269

C# チュートリアル

1249

Related knowledge

JavaScriptエンジン：実装の比較 Apr 13, 2025 am 12:05 AM

さまざまなJavaScriptエンジンは、各エンジンの実装原則と最適化戦略が異なるため、JavaScriptコードを解析および実行するときに異なる効果をもたらします。 1。語彙分析：ソースコードを語彙ユニットに変換します。 2。文法分析：抽象的な構文ツリーを生成します。 3。最適化とコンパイル：JITコンパイラを介してマシンコードを生成します。 4。実行：マシンコードを実行します。 V8エンジンはインスタントコンピレーションと非表示クラスを通じて最適化され、Spidermonkeyはタイプ推論システムを使用して、同じコードで異なるパフォーマンスパフォーマンスをもたらします。

Python vs. JavaScript：学習曲線と使いやすさ Apr 16, 2025 am 12:12 AM

Pythonは、スムーズな学習曲線と簡潔な構文を備えた初心者により適しています。 JavaScriptは、急な学習曲線と柔軟な構文を備えたフロントエンド開発に適しています。 1。Python構文は直感的で、データサイエンスやバックエンド開発に適しています。 2。JavaScriptは柔軟で、フロントエンドおよびサーバー側のプログラミングで広く使用されています。

C/CからJavaScriptへ：すべてがどのように機能するか Apr 14, 2025 am 12:05 AM

C/CからJavaScriptへのシフトには、動的なタイピング、ゴミ収集、非同期プログラミングへの適応が必要です。 1）C/Cは、手動メモリ管理を必要とする静的に型付けられた言語であり、JavaScriptは動的に型付けされ、ごみ収集が自動的に処理されます。 2）C/Cはマシンコードにコンパイルする必要がありますが、JavaScriptは解釈言語です。 3）JavaScriptは、閉鎖、プロトタイプチェーン、約束などの概念を導入します。これにより、柔軟性と非同期プログラミング機能が向上します。

JavaScriptとWeb：コア機能とユースケース Apr 18, 2025 am 12:19 AM

Web開発におけるJavaScriptの主な用途には、クライアントの相互作用、フォーム検証、非同期通信が含まれます。 1）DOM操作による動的なコンテンツの更新とユーザーインタラクション。 2）ユーザーエクスペリエンスを改善するためにデータを提出する前に、クライアントの検証が実行されます。 3）サーバーとのリフレッシュレス通信は、AJAXテクノロジーを通じて達成されます。

JavaScript in Action：実際の例とプロジェクト Apr 19, 2025 am 12:13 AM

現実世界でのJavaScriptのアプリケーションには、フロントエンドとバックエンドの開発が含まれます。 1）DOM操作とイベント処理を含むTODOリストアプリケーションを構築して、フロントエンドアプリケーションを表示します。 2）node.jsを介してRestfulapiを構築し、バックエンドアプリケーションをデモンストレーションします。

JavaScriptエンジンの理解：実装の詳細 Apr 17, 2025 am 12:05 AM

JavaScriptエンジンが内部的にどのように機能するかを理解することは、開発者にとってより効率的なコードの作成とパフォーマンスのボトルネックと最適化戦略の理解に役立つためです。 1）エンジンのワークフローには、3つの段階が含まれます。解析、コンパイル、実行。 2）実行プロセス中、エンジンはインラインキャッシュや非表示クラスなどの動的最適化を実行します。 3）ベストプラクティスには、グローバル変数の避け、ループの最適化、constとletsの使用、閉鎖の過度の使用の回避が含まれます。

Python vs. JavaScript：コミュニティ、ライブラリ、リソース Apr 15, 2025 am 12:16 AM

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1）Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2）Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3）どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

Python vs. JavaScript：開発環境とツール Apr 26, 2025 am 12:09 AM

開発環境におけるPythonとJavaScriptの両方の選択が重要です。 1）Pythonの開発環境には、Pycharm、Jupyternotebook、Anacondaが含まれます。これらは、データサイエンスと迅速なプロトタイピングに適しています。 2）JavaScriptの開発環境には、フロントエンドおよびバックエンド開発に適したnode.js、vscode、およびwebpackが含まれます。プロジェクトのニーズに応じて適切なツールを選択すると、開発効率とプロジェクトの成功率が向上する可能性があります。

See all articles