Rumah > Peranti teknologi > AI > Pembantu Penyelidik Berasaskan Rag menggunakan O3-Mini dan Crewai

Pembantu Penyelidik Berasaskan Rag menggunakan O3-Mini dan Crewai

Joseph Gordon-Levitt
Lepaskan: 2025-03-05 10:12:15
asal
449 orang telah melayarinya

Model terbaru OpenAI, O3-Mini, O3-Mini, sedang merevolusikan tugas pengekodan dengan keupayaan penalaran, penyelesaian masalah, dan kod generasi yang maju. Ia dengan cekap mengendalikan pertanyaan kompleks dan mengintegrasikan data berstruktur, menetapkan standard baru dalam aplikasi AI. Artikel ini meneroka menggunakan O3-Mini dan Crewai untuk membina ejen pembantu generasi pengambilan semula (RAG) yang mengambil maklumat dari pelbagai PDF dan memproses pertanyaan pengguna secara bijak. Kami akan menggunakan Crewi's Crewdoclingsource, Serperdevtool, dan Openai's O3-Mini untuk meningkatkan automasi dalam aliran kerja penyelidikan.

Jadual Kandungan

Membina ejen RAG dengan O3-Mini dan Crewai

    Prasyarat
  • Langkah 1: Pasang perpustakaan yang diperlukan
      Dokumen
    • Langkah 5: Tentukan model AI
    • 11: Jalankan Pembantu Penyelidik
    • KESIMPULAN
    • Soalan Lazim
    • Membina ejen RAG dengan O3-Mini dan Crewai
    • Dengan jumlah penyelidikan yang diterbitkan, pembantu berasaskan RAG automatik dapat membantu para penyelidik dengan cepat mencari pandangan yang relevan tanpa secara manual melangkah melalui beratus-ratus kertas. Ejen yang akan kami bina akan memproses PDF untuk mengekstrak maklumat utama dan menjawab pertanyaan berdasarkan kandungan dokumen. Sekiranya maklumat yang diperlukan tidak terdapat dalam PDFS, ia secara automatik akan melakukan carian web untuk memberikan pandangan yang relevan. Persediaan ini boleh diperluaskan untuk tugas yang lebih maju, seperti meringkaskan pelbagai kertas, mengesan penemuan bercanggah, atau menghasilkan laporan berstruktur.
    • Dalam panduan ini, kami akan membina ejen penyelidikan yang akan melalui artikel mengenai DeepSeek-R1 dan O3-Mini, untuk menjawab pertanyaan yang kami tanya mengenai model-model ini. Untuk membina ejen penolong penyelidik ini, kami akan terlebih dahulu melalui prasyarat dan menubuhkan alam sekitar. Kami kemudian akan mengimport modul yang diperlukan, menetapkan kunci API, dan memuatkan dokumen penyelidikan. Kemudian, kami akan terus menentukan model AI dan mengintegrasikan alat carian web ke dalamnya. Akhirnya, kami akan membuat ejen AI, menentukan tugas mereka, dan memasang krew. Sebaik sahaja siap, kami akan menjalankan ejen pembantu penyelidik untuk mengetahui sama ada O3-Mini lebih baik dan lebih selamat daripada DeepSeek-R1.
    • Prasyarat
    • Sebelum menyelam ke dalam pelaksanaan, mari kita pergi secara ringkas apa yang perlu kita mulakan. Mempunyai persediaan yang betul memastikan proses pembangunan yang lancar dan mengelakkan gangguan yang tidak perlu.
    • Jadi, pastikan anda mempunyai:
      • Persekitaran Python Kerja (3.8 atau ke atas)
      • Kekunci API untuk Openai dan Serper (Google Scholar API)

      dengan ini, kami sudah bersedia untuk memulakan bangunan!

      Langkah 1: Pasang perpustakaan yang diperlukan

      Pertama, kita perlu memasang perpustakaan yang diperlukan. Perpustakaan ini menyediakan asas untuk pemprosesan dokumen, orkestrasi ejen AI, dan fungsi carian web.

      !pip install crewai
      !pip install 'crewai[tools]'
      !pip install docling
      
      Salin selepas log masuk
      Salin selepas log masuk
      Salin selepas log masuk

      Perpustakaan ini memainkan peranan penting dalam membina pembantu penyelidik berkuasa AI yang cekap.

      • Crewai menyediakan rangka kerja yang mantap untuk mereka bentuk dan menguruskan ejen AI, yang membolehkan definisi peranan khusus dan membolehkan automasi penyelidikan yang cekap. Ia juga memudahkan delegasi tugas, memastikan kerjasama yang lancar antara agen AI.
      • Selain itu, Crewai [alat] memasang alat penting yang meningkatkan keupayaan ejen AI, membolehkan mereka berinteraksi dengan API, melakukan carian web, dan memproses data dengan lancar.
      • Docling mengkhususkan diri dalam mengekstrak pengetahuan berstruktur dari dokumen penyelidikan, menjadikannya sesuai untuk memproses PDF, kertas akademik, dan fail berasaskan teks. Dalam projek ini, ia digunakan untuk mengekstrak penemuan utama dari kertas penyelidikan ARXIV.
      Langkah 2: Import Modul yang diperlukan

      import os
      from crewai import LLM, Agent, Crew, Task
      from crewai_tools import SerperDevTool
      from crewai.knowledge.source.crew_docling_source import CrewDoclingSource
      
      Salin selepas log masuk
      Salin selepas log masuk
      Salin selepas log masuk
      Dalam ini,

        Modul OS dengan selamat menguruskan pembolehubah alam sekitar seperti kekunci API untuk integrasi lancar.
      • llm menguasai penalaran AI dan penjanaan tindak balas.
      • Ejen mentakrifkan peranan khusus untuk mengendalikan tugas dengan cekap.
      • Crew menguruskan pelbagai ejen, memastikan kerjasama yang lancar.
      • Tugas memberikan dan menjejaki tanggungjawab tertentu.
      • Serperdevtool membolehkan carian Google Scholar, meningkatkan pengambilan rujukan luaran.
      • CrewDoclingsource mengintegrasikan dokumen penyelidikan, membolehkan pengekstrakan dan analisis pengetahuan berstruktur.
      Langkah 3: Tetapkan kekunci API

      os.environ['OPENAI_API_KEY'] = 'your_openai_api_key'
      os.environ['SERPER_API_KEY'] = 'your_serper_api_key'
      
      Salin selepas log masuk
      Salin selepas log masuk
      Salin selepas log masuk
      bagaimana untuk mendapatkan kekunci API?

        Kunci API Terbuka: Daftar di OpenAI dan dapatkan kunci API.
      1. Kunci API Serper: Daftar di Serper.dev untuk mendapatkan kunci API.
      kekunci API ini membenarkan akses kepada model AI dan keupayaan carian web.

      Langkah 4: Muatkan Dokumen Penyelidikan

      Dalam langkah ini, kami akan memuatkan kertas penyelidikan dari ARXIV, membolehkan model AI kami untuk mengekstrak pandangan dari mereka. Kertas yang dipilih merangkumi topik utama:

        https://arxiv.org/pdf/2501.12948: Meneroka keupayaan penalaran yang memberi insentif di LLM melalui pembelajaran tetulang (DeepSeek-R1).
      1. https://arxiv.org/pdf/2501.18438: Membandingkan keselamatan O3-Mini dan DeepSeek-R1.
      2. https://arxiv.org/pdf/2401.02954: Membincangkan model bahasa sumber terbuka dengan perspektif jangka panjang.
      content_source = CrewDoclingSource(
          file_paths=[
              "https://arxiv.org/pdf/2501.12948",
              "https://arxiv.org/pdf/2501.18438",
              "https://arxiv.org/pdf/2401.02954"
          ],
      )
      
      Salin selepas log masuk
      Salin selepas log masuk
      Langkah 5: Tentukan model AI

      sekarang kita akan menentukan model AI.

      !pip install crewai
      !pip install 'crewai[tools]'
      !pip install docling
      
      Salin selepas log masuk
      Salin selepas log masuk
      Salin selepas log masuk
      • O3-Mini: Model AI yang kuat untuk penalaran.
      • suhu = 0: memastikan output deterministik (jawapan yang sama untuk pertanyaan yang sama).

      Langkah 6: Konfigurasikan Alat Carian Web

      Untuk meningkatkan keupayaan penyelidikan, kami mengintegrasikan alat carian web yang mengambil kertas akademik yang relevan apabila maklumat yang diperlukan tidak dijumpai dalam dokumen yang disediakan.

      import os
      from crewai import LLM, Agent, Crew, Task
      from crewai_tools import SerperDevTool
      from crewai.knowledge.source.crew_docling_source import CrewDoclingSource
      
      Salin selepas log masuk
      Salin selepas log masuk
      Salin selepas log masuk
        search_url = "https://google.serper.dev/scholar"
      Ini menentukan endpoint API carian Google Scholar.Ia memastikan bahawa carian dilakukan secara khusus dalam artikel ilmiah, kertas penyelidikan, dan sumber akademik, bukannya laman web umum.

      n_results = 2
      1. Parameter ini mengehadkan bilangan hasil carian yang dikembalikan oleh alat, memastikan bahawa hanya maklumat yang paling relevan diambil. Dalam kes ini, ia ditetapkan untuk mengambil dua kertas penyelidikan teratas dari Google Scholar, mengutamakan sumber akademik berkualiti tinggi. Dengan mengurangkan bilangan keputusan, pembantu menyimpan respons ringkas dan cekap, mengelakkan beban maklumat yang tidak perlu sambil mengekalkan ketepatan.

      Langkah 7: Tentukan model embedding untuk carian dokumen

      Untuk mendapatkan maklumat yang relevan dengan cekap dari dokumen, kami menggunakan model penyembuhan yang menukarkan teks ke dalam perwakilan berangka untuk carian berasaskan persamaan.

      Penyembuhan di Crewai digunakan untuk menukar teks ke dalam perwakilan berangka (embeddings), membolehkan pengambilan dokumen yang cekap dan carian semantik. Dalam kes ini, model embedding disediakan oleh OpenAI, khususnya menggunakan "teks-embedding-ada-002", model yang dioptimumkan dengan baik untuk menghasilkan embeddings berkualiti tinggi. Kunci API diambil dari pembolehubah persekitaran untuk mengesahkan permintaan.
      os.environ['OPENAI_API_KEY'] = 'your_openai_api_key'
      os.environ['SERPER_API_KEY'] = 'your_serper_api_key'
      
      Salin selepas log masuk
      Salin selepas log masuk
      Salin selepas log masuk

      Crewai menyokong pelbagai penyedia penyembuhan, termasuk Openai dan Gemini (model AI Google), yang membolehkan fleksibiliti dalam memilih model terbaik berdasarkan ketepatan, prestasi, dan pertimbangan kos.

      Langkah 8: Buat ejen AI

      Sekarang kami akan membuat dua ejen AI yang diperlukan untuk tugas penyelidikan kami: ejen carian dokumen, dan ejen carian web.

      Ejen carian dokumen bertanggungjawab untuk mendapatkan jawapan dari kertas penyelidikan dan dokumen yang disediakan. Ia bertindak sebagai pakar dalam menganalisis kandungan teknikal dan mengekstrak pandangan yang relevan. Jika maklumat yang diperlukan tidak dijumpai, ia boleh mewakilkan pertanyaan kepada ejen carian web untuk penerokaan lanjut. Allow_delegation = tetapan yang benar membolehkan proses delegasi ini.

      !pip install crewai
      !pip install 'crewai[tools]'
      !pip install docling
      
      Salin selepas log masuk
      Salin selepas log masuk
      Salin selepas log masuk

      Ejen carian web, sebaliknya, direka untuk mencari maklumat yang hilang dalam talian menggunakan Google Scholar. Ia hanya langkah apabila ejen carian dokumen gagal mencari jawapan dalam dokumen yang ada. Tidak seperti ejen carian dokumen, ia tidak dapat mewakilkan tugas lebih lanjut (membenarkan_delegasi = palsu). Ia menggunakan Serper (Google Scholar API) sebagai alat untuk mengambil kertas akademik yang relevan dan memastikan respons yang tepat.

      import os
      from crewai import LLM, Agent, Crew, Task
      from crewai_tools import SerperDevTool
      from crewai.knowledge.source.crew_docling_source import CrewDoclingSource
      
      Salin selepas log masuk
      Salin selepas log masuk
      Salin selepas log masuk

      Langkah 9: Tentukan tugas -tugas untuk ejen

      Sekarang kita akan membuat dua tugas untuk ejen.

      Tugas pertama melibatkan menjawab soalan yang diberikan menggunakan kertas penyelidikan dan dokumen yang ada.

      Tugas 1: Ekstrak Maklumat dari Dokumen

      os.environ['OPENAI_API_KEY'] = 'your_openai_api_key'
      os.environ['SERPER_API_KEY'] = 'your_serper_api_key'
      
      Salin selepas log masuk
      Salin selepas log masuk
      Salin selepas log masuk

      Tugas seterusnya dimainkan apabila carian berasaskan dokumen tidak menghasilkan jawapan.

      tugas 2: Lakukan carian web jika diperlukan

      content_source = CrewDoclingSource(
          file_paths=[
              "https://arxiv.org/pdf/2501.12948",
              "https://arxiv.org/pdf/2501.18438",
              "https://arxiv.org/pdf/2401.02954"
          ],
      )
      
      Salin selepas log masuk
      Salin selepas log masuk

      Langkah 10: Kumpulkan krew

      Krew di Crewai menguruskan ejen untuk menyelesaikan tugas dengan cekap dengan menyelaraskan ejen carian dokumen dan ejen carian web. Ia pertama kali mencari dalam dokumen yang dimuat naik dan perwakilan ke carian web jika diperlukan.

      • pengetahuan_sources = [content_source] menyediakan dokumen yang relevan,
      • Embedder = Embedder membolehkan carian semantik, dan
      • verbose = Tindakan log yang benar untuk penjejakan yang lebih baik, memastikan aliran kerja yang lancar.
      llm = LLM(model="o3-mini", temperature=0)
      
      Salin selepas log masuk

      Langkah 11: Jalankan Pembantu Penyelidik

      Pertanyaan awal diarahkan ke dokumen untuk memeriksa sama ada ejen penyelidik dapat memberikan respons. Soalan yang ditanya ialah "O3-Mini vs DeepSeek-R1: Mana yang lebih selamat?"

      Contoh pertanyaan 1:

      serper_tool = SerperDevTool(
          search_url="https://google.serper.dev/scholar",
          n_results=2  # Fetch top 2 results
      )
      
      Salin selepas log masuk

      Response :

      Pembantu Penyelidik Berasaskan Rag menggunakan O3-Mini dan Crewai

      di sini, kita dapat melihat bahawa jawapan akhir dihasilkan oleh pencari dokumen, kerana ia berjaya menemui maklumat yang diperlukan dalam dokumen yang disediakan.

      Contoh pertanyaan 2:

      di sini, soalan "Mana yang lebih baik, O3 Mini atau DeepSeek R1?" tidak terdapat dalam dokumen. Sistem ini akan memeriksa sama ada ejen carian dokumen dapat mencari jawapan; Jika tidak, ia akan mewakilkan tugas kepada ejen carian web

      embedder = {
          "provider": "openai",
          "config": {
              "model": "text-embedding-ada-002",
              "api_key": os.environ['OPENAI_API_KEY']
          }
      }
      
      Salin selepas log masuk

      Response :

      Pembantu Penyelidik Berasaskan Rag menggunakan O3-Mini dan Crewai Dari output, kita perhatikan bahawa respons telah dijana menggunakan ejen pencari web kerana maklumat yang diperlukan tidak dijumpai oleh ejen penyelidik dokumen. Di samping itu, ia termasuk sumber -sumber yang mana jawapannya akhirnya diambil.

      Kesimpulan

      Dalam projek ini, kami berjaya membina pembantu penyelidik yang berkuasa AI yang efisien mengambil dan menganalisis maklumat dari kertas penyelidikan dan web. Dengan menggunakan Crewai untuk koordinasi ejen, mengumpulkan pemprosesan dokumen, dan Serper untuk carian ilmiah, kami mencipta sistem yang mampu menjawab pertanyaan kompleks dengan pandangan berstruktur.

      Pembantu pertama mencari dalam dokumen dan perwakilan dengan lancar ke carian web jika diperlukan, memastikan respons yang tepat. Pendekatan ini meningkatkan kecekapan penyelidikan dengan mengautomasikan pengambilan dan analisis maklumat. Di samping itu, dengan mengintegrasikan pembantu penyelidik O3-Mini dengan CrewiClingsource Crewai dan Serperdevtool, kami terus meningkatkan keupayaan analisis dokumen sistem. Dengan penyesuaian selanjutnya, rangka kerja ini dapat diperluaskan untuk menyokong lebih banyak sumber data, penalaran lanjutan, dan aliran kerja penyelidikan yang lebih baik.

      Anda boleh meneroka projek-projek yang menakjubkan yang menampilkan Openai O3-Mini dalam kursus percuma kami-bermula dengan O3-Mini!

      Soalan Lazim

      Q1. Apa itu Crewai?

      a. Crewai adalah rangka kerja yang membolehkan anda membuat dan mengurus agen AI dengan peranan dan tugas tertentu. Ia membolehkan kerjasama antara pelbagai agen AI untuk mengautomasikan aliran kerja yang kompleks.

      Q2. Bagaimanakah Crewai menguruskan pelbagai ejen? a. Crewai menggunakan pendekatan berstruktur di mana setiap ejen mempunyai peranan yang jelas dan dapat mewakilkan tugas jika diperlukan. Objek krew mengatur ejen -ejen ini untuk menyelesaikan tugas dengan cekap.

      Q3. Apakah CrewDoclingsource? a. CrewDoclingSource adalah alat pemprosesan dokumen di Crewai yang mengekstrak pengetahuan berstruktur dari kertas penyelidikan, PDF, dan dokumen berasaskan teks. Apakah Serper API?

      a. Serper API adalah alat yang membolehkan aplikasi AI melakukan pertanyaan carian Google, termasuk carian di Google Scholar untuk kertas akademik.

      Q5. Adakah serper API bebas untuk digunakan? a. Serper API menawarkan kedua -dua pelan percuma dan berbayar, dengan batasan bilangan permintaan carian di peringkat percuma. Q6. Apakah perbezaan antara API SERPER dan carian Google tradisional?

      a. Tidak seperti carian Google standard, API SERPER menyediakan akses berstruktur kepada hasil carian, yang membolehkan ejen AI mengekstrak kertas penyelidikan yang relevan dengan cekap. Q7. Bolehkah CrewDoclingsource mengendalikan pelbagai format fail?

      a. Ya, ia menyokong format dokumen penyelidikan biasa, termasuk PDF dan fail berasaskan teks.

Atas ialah kandungan terperinci Pembantu Penyelidik Berasaskan Rag menggunakan O3-Mini dan Crewai. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan