


Menguji Aplikasi LLM: Kesalahan dalam SDK Mengejek vs Permintaan HTTP Terus
pengenalan
Izinkan saya mendahului blog ini dengan mengatakan ini bukan seperti blog saya yang lain di mana saya dapat melalui langkah-langkah yang saya ambil untuk menyelesaikan tugasan. Sebaliknya, ini lebih kepada refleksi tentang cabaran yang saya temui semasa cuba menambahkan ujian pada projek saya, gimme_readme dan perkara yang saya pelajari tentang menguji aplikasi berkuasa LLM sepanjang perjalanan.
Konteks
Minggu ini, saya dan rakan sekelas Pembangunan Sumber Terbuka ditugaskan untuk menambah ujian pada alatan baris perintah kami yang menggabungkan Model Bahasa Besar (LLM). Ini kelihatan mudah pada mulanya, tetapi ia membawa saya ke dalam lubang arnab dengan kerumitan ujian yang tidak saya jangkakan.
Perjalanan Ujian Saya
Pendekatan Awal
Apabila saya mula-mula membina gimme_readme, saya menambahkan beberapa ujian asas menggunakan Jest.js. Ujian ini agak mudah, memfokuskan terutamanya pada:
- Mengesahkan output fungsi
- Menyemak pengendalian ralat asas
- Menguji fungsi utiliti mudah
Walaupun ujian ini memberikan beberapa liputan, mereka tidak menguji salah satu bahagian paling kritikal dalam aplikasi saya: interaksi LLM.
Cabaran: Menguji Interaksi LLM
Ketika saya cuba menambah ujian yang lebih komprehensif, saya mendapat kesedaran yang menarik tentang cara aplikasi saya berkomunikasi dengan LLM. Pada mulanya, saya fikir saya boleh menggunakan Nock.js untuk mengejek permintaan HTTP kepada model bahasa ini. Lagipun, itulah kehebatan Nock - memintas dan mengejek permintaan HTTP untuk ujian.
Walau bagaimanapun, saya mendapati bahawa cara saya menggunakan LLM menyukarkan saya untuk menulis ujian menggunakan Nock.
Dilema Permintaan SDK vs HTTP Terus
Di sinilah perkara menjadi menarik. Aplikasi saya menggunakan pelanggan SDK rasmi yang disediakan oleh perkhidmatan LLM seperti Gemini dan Groq Google. SDK ini bertindak sebagai lapisan abstraksi yang mengendalikan semua komunikasi HTTP di sebalik tabir. Walaupun ini menjadikan kod lebih bersih dan lebih mudah untuk digunakan dalam pengeluaran, ia mewujudkan cabaran ujian yang menarik.
Pertimbangkan dua pendekatan ini untuk melaksanakan fungsi LLM:
// Approach 1: Using SDK const groq = new Groq({ apiKey }); const response = await groq.chat.completions.create({ messages: [{ role: "user", content: prompt }], model: "mixtral-8x7b-32768" }); // Approach 2: Direct HTTP requests const response = await fetch('https://api.groq.com/v1/completions', { method: 'POST', headers: { 'Authorization': `Bearer ${apiKey}`, 'Content-Type': 'application/json' }, body: JSON.stringify({ messages: [{ role: "user", content: prompt }], model: "mixtral-8x7b-32768" }) });
Pendekatan SDK adalah lebih bersih dan memberikan pengalaman pembangun yang lebih baik, tetapi ia menjadikan alat mengejek HTTP tradisional seperti Nock kurang berguna. Permintaan HTTP berlaku di dalam SDK, menjadikannya lebih sukar untuk memintas dengan Nock.
Pengajaran
Pertimbangkan Strategi Pengujian Awal: Apabila memilih antara SDK dan permintaan HTTP langsung, pertimbangkan cara anda akan menguji pelaksanaan. Kadangkala kod pengeluaran "lebih bersih" mungkin menjadikan ujian lebih mencabar.
-
Pengujian SDK Memerlukan Alat Berbeza: Apabila menggunakan SDK, anda perlu mengejek pada tahap SDK dan bukannya tahap HTTP. Ini bermakna:
- Mengejek seluruh klien SDK
- Memfokus pada antara muka SDK dan bukannya permintaan HTTP
- Menggunakan keupayaan mengejek modul Jest dan bukannya pemintas HTTP
Imbangan Antara Kemudahan dan Kebolehujian: Walaupun SDK memberikan pengalaman pembangun yang hebat, mereka boleh menjadikan pendekatan ujian tertentu lebih sukar. Pertimbangan ini patut dipertimbangkan semasa mereka bentuk aplikasi anda.
Melangkah ke Hadapan
Walaupun saya masih belum menyelesaikan sepenuhnya cabaran ujian saya, pengalaman ini telah mengajar saya pelajaran berharga tentang menguji aplikasi yang bergantung pada perkhidmatan luaran melalui SDK. Bagi sesiapa yang membina aplikasi serupa, saya akan mengesyorkan:
- Fikirkan tentang strategi ujian apabila memilih antara SDK dan panggilan API langsung
- Jika menggunakan SDK, rancang untuk mengejek pada tahap SDK dan bukannya tahap HTTP
- Pertimbangkan untuk menulis pembalut nipis di sekeliling SDK untuk menjadikannya lebih boleh diuji
- Dokumenkan pendekatan ujian untuk orang lain yang mungkin mengusahakan projek
Kesimpulan
Menguji aplikasi LLM memberikan cabaran unik, terutamanya apabila mengimbangi kemudahan pembangunan moden seperti SDK dengan keperluan untuk ujian menyeluruh. Semasa saya masih berusaha untuk meningkatkan liputan ujian untuk gimme_readme, pengalaman ini telah memberikan saya pemahaman yang lebih baik tentang cara mendekati ujian dalam projek masa hadapan yang melibatkan perkhidmatan luaran dan SDK.
Adakah orang lain menghadapi cabaran yang sama semasa menguji aplikasi yang menggunakan LLM SDK? Saya ingin mendengar tentang pengalaman dan penyelesaian anda dalam ulasan!
Atas ialah kandungan terperinci Menguji Aplikasi LLM: Kesalahan dalam SDK Mengejek vs Permintaan HTTP Terus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Soalan dan penyelesaian yang sering ditanya untuk percetakan tiket kertas terma depan dalam pembangunan front-end, percetakan tiket adalah keperluan umum. Walau bagaimanapun, banyak pemaju sedang melaksanakan ...

JavaScript adalah asas kepada pembangunan web moden, dan fungsi utamanya termasuk pengaturcaraan yang didorong oleh peristiwa, penjanaan kandungan dinamik dan pengaturcaraan tak segerak. 1) Pengaturcaraan yang didorong oleh peristiwa membolehkan laman web berubah secara dinamik mengikut operasi pengguna. 2) Penjanaan kandungan dinamik membolehkan kandungan halaman diselaraskan mengikut syarat. 3) Pengaturcaraan Asynchronous memastikan bahawa antara muka pengguna tidak disekat. JavaScript digunakan secara meluas dalam interaksi web, aplikasi satu halaman dan pembangunan sisi pelayan, sangat meningkatkan fleksibiliti pengalaman pengguna dan pembangunan silang platform.

Tidak ada gaji mutlak untuk pemaju Python dan JavaScript, bergantung kepada kemahiran dan keperluan industri. 1. Python boleh dibayar lebih banyak dalam sains data dan pembelajaran mesin. 2. JavaScript mempunyai permintaan yang besar dalam perkembangan depan dan stack penuh, dan gajinya juga cukup besar. 3. Faktor mempengaruhi termasuk pengalaman, lokasi geografi, saiz syarikat dan kemahiran khusus.

Perbincangan mengenai realisasi kesan animasi tatal dan elemen Parallax dalam artikel ini akan meneroka bagaimana untuk mencapai yang serupa dengan laman web rasmi Shiseido (https://www.shiseido.co.jp/sb/wonderland/) ... ...

Pembelajaran JavaScript tidak sukar, tetapi ia mencabar. 1) Memahami konsep asas seperti pembolehubah, jenis data, fungsi, dan sebagainya. 2) Pengaturcaraan asynchronous tuan dan melaksanakannya melalui gelung acara. 3) Gunakan operasi DOM dan berjanji untuk mengendalikan permintaan tak segerak. 4) Elakkan kesilapan biasa dan gunakan teknik debugging. 5) Mengoptimumkan prestasi dan mengikuti amalan terbaik.

Trend terkini dalam JavaScript termasuk kebangkitan TypeScript, populariti kerangka dan perpustakaan moden, dan penerapan webassembly. Prospek masa depan meliputi sistem jenis yang lebih berkuasa, pembangunan JavaScript, pengembangan kecerdasan buatan dan pembelajaran mesin, dan potensi pengkomputeran IoT dan kelebihan.

Bagaimana cara menggabungkan elemen array dengan ID yang sama ke dalam satu objek dalam JavaScript? Semasa memproses data, kita sering menghadapi keperluan untuk mempunyai id yang sama ...

Masalah kemas kini data dalam operasi Zustand Asynchronous. Apabila menggunakan Perpustakaan Pengurusan Negeri Zustand, anda sering menghadapi masalah kemas kini data yang menyebabkan operasi tak segerak menjadi tidak lama lagi. � ...
