Pembantu Penyelidik Berasaskan Rag menggunakan O3-Mini dan Crewai-AI-php.cn

Model terbaru OpenAI, O3-Mini, O3-Mini, sedang merevolusikan tugas pengekodan dengan keupayaan penalaran, penyelesaian masalah, dan kod generasi yang maju. Ia dengan cekap mengendalikan pertanyaan kompleks dan mengintegrasikan data berstruktur, menetapkan standard baru dalam aplikasi AI. Artikel ini meneroka menggunakan O3-Mini dan Crewai untuk membina ejen pembantu generasi pengambilan semula (RAG) yang mengambil maklumat dari pelbagai PDF dan memproses pertanyaan pengguna secara bijak. Kami akan menggunakan Crewi's Crewdoclingsource, Serperdevtool, dan Openai's O3-Mini untuk meningkatkan automasi dalam aliran kerja penyelidikan.

Jadual Kandungan

Membina ejen RAG dengan O3-Mini dan Crewai

Langkah 1: Pasang perpustakaan yang diperlukan
Dokumen

Langkah 5: Tentukan model AI
11: Jalankan Pembantu Penyelidik

KESIMPULAN

Soalan Lazim

Membina ejen RAG dengan O3-Mini dan Crewai

Dengan jumlah penyelidikan yang diterbitkan, pembantu berasaskan RAG automatik dapat membantu para penyelidik dengan cepat mencari pandangan yang relevan tanpa secara manual melangkah melalui beratus-ratus kertas. Ejen yang akan kami bina akan memproses PDF untuk mengekstrak maklumat utama dan menjawab pertanyaan berdasarkan kandungan dokumen. Sekiranya maklumat yang diperlukan tidak terdapat dalam PDFS, ia secara automatik akan melakukan carian web untuk memberikan pandangan yang relevan. Persediaan ini boleh diperluaskan untuk tugas yang lebih maju, seperti meringkaskan pelbagai kertas, mengesan penemuan bercanggah, atau menghasilkan laporan berstruktur.

Dalam panduan ini, kami akan membina ejen penyelidikan yang akan melalui artikel mengenai DeepSeek-R1 dan O3-Mini, untuk menjawab pertanyaan yang kami tanya mengenai model-model ini. Untuk membina ejen penolong penyelidik ini, kami akan terlebih dahulu melalui prasyarat dan menubuhkan alam sekitar. Kami kemudian akan mengimport modul yang diperlukan, menetapkan kunci API, dan memuatkan dokumen penyelidikan. Kemudian, kami akan terus menentukan model AI dan mengintegrasikan alat carian web ke dalamnya. Akhirnya, kami akan membuat ejen AI, menentukan tugas mereka, dan memasang krew. Sebaik sahaja siap, kami akan menjalankan ejen pembantu penyelidik untuk mengetahui sama ada O3-Mini lebih baik dan lebih selamat daripada DeepSeek-R1.

Prasyarat

Sebelum menyelam ke dalam pelaksanaan, mari kita pergi secara ringkas apa yang perlu kita mulakan. Mempunyai persediaan yang betul memastikan proses pembangunan yang lancar dan mengelakkan gangguan yang tidak perlu.

Jadi, pastikan anda mempunyai:

Persekitaran Python Kerja (3.8 atau ke atas)

Kekunci API untuk Openai dan Serper (Google Scholar API)

dengan ini, kami sudah bersedia untuk memulakan bangunan!

Langkah 1: Pasang perpustakaan yang diperlukan

Pertama, kita perlu memasang perpustakaan yang diperlukan. Perpustakaan ini menyediakan asas untuk pemprosesan dokumen, orkestrasi ejen AI, dan fungsi carian web.

!pip install crewai !pip install 'crewai[tools]' !pip install docling
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Perpustakaan ini memainkan peranan penting dalam membina pembantu penyelidik berkuasa AI yang cekap.

Crewai menyediakan rangka kerja yang mantap untuk mereka bentuk dan menguruskan ejen AI, yang membolehkan definisi peranan khusus dan membolehkan automasi penyelidikan yang cekap. Ia juga memudahkan delegasi tugas, memastikan kerjasama yang lancar antara agen AI.

Selain itu, Crewai [alat] memasang alat penting yang meningkatkan keupayaan ejen AI, membolehkan mereka berinteraksi dengan API, melakukan carian web, dan memproses data dengan lancar.
Docling mengkhususkan diri dalam mengekstrak pengetahuan berstruktur dari dokumen penyelidikan, menjadikannya sesuai untuk memproses PDF, kertas akademik, dan fail berasaskan teks. Dalam projek ini, ia digunakan untuk mengekstrak penemuan utama dari kertas penyelidikan ARXIV.

Langkah 2: Import Modul yang diperlukan

import os from crewai import LLM, Agent, Crew, Task from crewai_tools import SerperDevTool from crewai.knowledge.source.crew_docling_source import CrewDoclingSource
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk
Dalam ini,

Modul OS dengan selamat menguruskan pembolehubah alam sekitar seperti kekunci API untuk integrasi lancar.

llm menguasai penalaran AI dan penjanaan tindak balas.

Ejen mentakrifkan peranan khusus untuk mengendalikan tugas dengan cekap.

Crew menguruskan pelbagai ejen, memastikan kerjasama yang lancar.

Tugas memberikan dan menjejaki tanggungjawab tertentu.

Serperdevtool membolehkan carian Google Scholar, meningkatkan pengambilan rujukan luaran.

CrewDoclingsource mengintegrasikan dokumen penyelidikan, membolehkan pengekstrakan dan analisis pengetahuan berstruktur.

Langkah 3: Tetapkan kekunci API

os.environ['OPENAI_API_KEY'] = 'your_openai_api_key' os.environ['SERPER_API_KEY'] = 'your_serper_api_key'
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk
bagaimana untuk mendapatkan kekunci API?

Kunci API Terbuka: Daftar di OpenAI dan dapatkan kunci API.

Kunci API Serper: Daftar di Serper.dev untuk mendapatkan kunci API.

kekunci API ini membenarkan akses kepada model AI dan keupayaan carian web.

Langkah 4: Muatkan Dokumen Penyelidikan

Dalam langkah ini, kami akan memuatkan kertas penyelidikan dari ARXIV, membolehkan model AI kami untuk mengekstrak pandangan dari mereka. Kertas yang dipilih merangkumi topik utama:

https://arxiv.org/pdf/2501.12948: Meneroka keupayaan penalaran yang memberi insentif di LLM melalui pembelajaran tetulang (DeepSeek-R1).

https://arxiv.org/pdf/2501.18438: Membandingkan keselamatan O3-Mini dan DeepSeek-R1.

https://arxiv.org/pdf/2401.02954: Membincangkan model bahasa sumber terbuka dengan perspektif jangka panjang.

content_source = CrewDoclingSource( file_paths=[ "https://arxiv.org/pdf/2501.12948", "https://arxiv.org/pdf/2501.18438", "https://arxiv.org/pdf/2401.02954" ], )
Salin selepas log masuk
Salin selepas log masuk
Langkah 5: Tentukan model AI

sekarang kita akan menentukan model AI.

!pip install crewai !pip install 'crewai[tools]' !pip install docling
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

O3-Mini: Model AI yang kuat untuk penalaran.

suhu = 0: memastikan output deterministik (jawapan yang sama untuk pertanyaan yang sama).

Langkah 6: Konfigurasikan Alat Carian Web

Untuk meningkatkan keupayaan penyelidikan, kami mengintegrasikan alat carian web yang mengambil kertas akademik yang relevan apabila maklumat yang diperlukan tidak dijumpai dalam dokumen yang disediakan.

import os from crewai import LLM, Agent, Crew, Task from crewai_tools import SerperDevTool from crewai.knowledge.source.crew_docling_source import CrewDoclingSource
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

search_url = "https://google.serper.dev/scholar"

Ini menentukan endpoint API carian Google Scholar.Ia memastikan bahawa carian dilakukan secara khusus dalam artikel ilmiah, kertas penyelidikan, dan sumber akademik, bukannya laman web umum.

n_results = 2

Parameter ini mengehadkan bilangan hasil carian yang dikembalikan oleh alat, memastikan bahawa hanya maklumat yang paling relevan diambil. Dalam kes ini, ia ditetapkan untuk mengambil dua kertas penyelidikan teratas dari Google Scholar, mengutamakan sumber akademik berkualiti tinggi. Dengan mengurangkan bilangan keputusan, pembantu menyimpan respons ringkas dan cekap, mengelakkan beban maklumat yang tidak perlu sambil mengekalkan ketepatan.

Langkah 7: Tentukan model embedding untuk carian dokumen

Untuk mendapatkan maklumat yang relevan dengan cekap dari dokumen, kami menggunakan model penyembuhan yang menukarkan teks ke dalam perwakilan berangka untuk carian berasaskan persamaan.

Penyembuhan di Crewai digunakan untuk menukar teks ke dalam perwakilan berangka (embeddings), membolehkan pengambilan dokumen yang cekap dan carian semantik. Dalam kes ini, model embedding disediakan oleh OpenAI, khususnya menggunakan "teks-embedding-ada-002", model yang dioptimumkan dengan baik untuk menghasilkan embeddings berkualiti tinggi. Kunci API diambil dari pembolehubah persekitaran untuk mengesahkan permintaan.
os.environ['OPENAI_API_KEY'] = 'your_openai_api_key' os.environ['SERPER_API_KEY'] = 'your_serper_api_key'
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Crewai menyokong pelbagai penyedia penyembuhan, termasuk Openai dan Gemini (model AI Google), yang membolehkan fleksibiliti dalam memilih model terbaik berdasarkan ketepatan, prestasi, dan pertimbangan kos.

Langkah 8: Buat ejen AI

Sekarang kami akan membuat dua ejen AI yang diperlukan untuk tugas penyelidikan kami: ejen carian dokumen, dan ejen carian web.

Ejen carian dokumen bertanggungjawab untuk mendapatkan jawapan dari kertas penyelidikan dan dokumen yang disediakan. Ia bertindak sebagai pakar dalam menganalisis kandungan teknikal dan mengekstrak pandangan yang relevan. Jika maklumat yang diperlukan tidak dijumpai, ia boleh mewakilkan pertanyaan kepada ejen carian web untuk penerokaan lanjut. Allow_delegation = tetapan yang benar membolehkan proses delegasi ini.

!pip install crewai !pip install 'crewai[tools]' !pip install docling
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Ejen carian web, sebaliknya, direka untuk mencari maklumat yang hilang dalam talian menggunakan Google Scholar. Ia hanya langkah apabila ejen carian dokumen gagal mencari jawapan dalam dokumen yang ada. Tidak seperti ejen carian dokumen, ia tidak dapat mewakilkan tugas lebih lanjut (membenarkan_delegasi = palsu). Ia menggunakan Serper (Google Scholar API) sebagai alat untuk mengambil kertas akademik yang relevan dan memastikan respons yang tepat.

import os from crewai import LLM, Agent, Crew, Task from crewai_tools import SerperDevTool from crewai.knowledge.source.crew_docling_source import CrewDoclingSource
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Langkah 9: Tentukan tugas -tugas untuk ejen

Sekarang kita akan membuat dua tugas untuk ejen.

Tugas pertama melibatkan menjawab soalan yang diberikan menggunakan kertas penyelidikan dan dokumen yang ada.

Tugas 1: Ekstrak Maklumat dari Dokumen

os.environ['OPENAI_API_KEY'] = 'your_openai_api_key' os.environ['SERPER_API_KEY'] = 'your_serper_api_key'
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Tugas seterusnya dimainkan apabila carian berasaskan dokumen tidak menghasilkan jawapan.

tugas 2: Lakukan carian web jika diperlukan

content_source = CrewDoclingSource( file_paths=[ "https://arxiv.org/pdf/2501.12948", "https://arxiv.org/pdf/2501.18438", "https://arxiv.org/pdf/2401.02954" ], )
Salin selepas log masuk
Salin selepas log masuk

Langkah 10: Kumpulkan krew

Krew di Crewai menguruskan ejen untuk menyelesaikan tugas dengan cekap dengan menyelaraskan ejen carian dokumen dan ejen carian web. Ia pertama kali mencari dalam dokumen yang dimuat naik dan perwakilan ke carian web jika diperlukan.

pengetahuan_sources = [content_source] menyediakan dokumen yang relevan,

Embedder = Embedder membolehkan carian semantik, dan

verbose = Tindakan log yang benar untuk penjejakan yang lebih baik, memastikan aliran kerja yang lancar.

llm = LLM(model="o3-mini", temperature=0)
Salin selepas log masuk

Langkah 11: Jalankan Pembantu Penyelidik

Pertanyaan awal diarahkan ke dokumen untuk memeriksa sama ada ejen penyelidik dapat memberikan respons. Soalan yang ditanya ialah "O3-Mini vs DeepSeek-R1: Mana yang lebih selamat?"

Contoh pertanyaan 1:

serper_tool = SerperDevTool( search_url="https://google.serper.dev/scholar", n_results=2 # Fetch top 2 results )
Salin selepas log masuk

Response :

di sini, kita dapat melihat bahawa jawapan akhir dihasilkan oleh pencari dokumen, kerana ia berjaya menemui maklumat yang diperlukan dalam dokumen yang disediakan.

Contoh pertanyaan 2:

di sini, soalan "Mana yang lebih baik, O3 Mini atau DeepSeek R1?" tidak terdapat dalam dokumen. Sistem ini akan memeriksa sama ada ejen carian dokumen dapat mencari jawapan; Jika tidak, ia akan mewakilkan tugas kepada ejen carian web

embedder = { "provider": "openai", "config": { "model": "text-embedding-ada-002", "api_key": os.environ['OPENAI_API_KEY'] } }
Salin selepas log masuk

Response :

Dari output, kita perhatikan bahawa respons telah dijana menggunakan ejen pencari web kerana maklumat yang diperlukan tidak dijumpai oleh ejen penyelidik dokumen. Di samping itu, ia termasuk sumber -sumber yang mana jawapannya akhirnya diambil.

Kesimpulan

Dalam projek ini, kami berjaya membina pembantu penyelidik yang berkuasa AI yang efisien mengambil dan menganalisis maklumat dari kertas penyelidikan dan web. Dengan menggunakan Crewai untuk koordinasi ejen, mengumpulkan pemprosesan dokumen, dan Serper untuk carian ilmiah, kami mencipta sistem yang mampu menjawab pertanyaan kompleks dengan pandangan berstruktur.

Pembantu pertama mencari dalam dokumen dan perwakilan dengan lancar ke carian web jika diperlukan, memastikan respons yang tepat. Pendekatan ini meningkatkan kecekapan penyelidikan dengan mengautomasikan pengambilan dan analisis maklumat. Di samping itu, dengan mengintegrasikan pembantu penyelidik O3-Mini dengan CrewiClingsource Crewai dan Serperdevtool, kami terus meningkatkan keupayaan analisis dokumen sistem. Dengan penyesuaian selanjutnya, rangka kerja ini dapat diperluaskan untuk menyokong lebih banyak sumber data, penalaran lanjutan, dan aliran kerja penyelidikan yang lebih baik.

Anda boleh meneroka projek-projek yang menakjubkan yang menampilkan Openai O3-Mini dalam kursus percuma kami-bermula dengan O3-Mini!

Soalan Lazim
Q1. Apa itu Crewai?
a. Crewai adalah rangka kerja yang membolehkan anda membuat dan mengurus agen AI dengan peranan dan tugas tertentu. Ia membolehkan kerjasama antara pelbagai agen AI untuk mengautomasikan aliran kerja yang kompleks.
Q2. Bagaimanakah Crewai menguruskan pelbagai ejen? a. Crewai menggunakan pendekatan berstruktur di mana setiap ejen mempunyai peranan yang jelas dan dapat mewakilkan tugas jika diperlukan. Objek krew mengatur ejen -ejen ini untuk menyelesaikan tugas dengan cekap.

Q3. Apakah CrewDoclingsource? ~~a. CrewDoclingSource adalah alat pemprosesan dokumen di Crewai yang mengekstrak pengetahuan berstruktur dari kertas penyelidikan, PDF, dan dokumen berasaskan teks. Apakah Serper API?~~
a. Serper API adalah alat yang membolehkan aplikasi AI melakukan pertanyaan carian Google, termasuk carian di Google Scholar untuk kertas akademik.
Q5. Adakah serper API bebas untuk digunakan? ~~a. Serper API menawarkan kedua -dua pelan percuma dan berbayar, dengan batasan bilangan permintaan carian di peringkat percuma.~~ ~~Q6. Apakah perbezaan antara API SERPER dan carian Google tradisional?~~

a. Tidak seperti carian Google standard, API SERPER menyediakan akses berstruktur kepada hasil carian, yang membolehkan ejen AI mengekstrak kertas penyelidikan yang relevan dengan cekap. Q7. Bolehkah CrewDoclingsource mengendalikan pelbagai format fail?

a. Ya, ia menyokong format dokumen penyelidikan biasa, termasuk PDF dan fail berasaskan teks.

Atas ialah kandungan terperinci Pembantu Penyelidik Berasaskan Rag menggunakan O3-Mini dan Crewai. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!