Sistem agenik multimodal mewakili kemajuan revolusioner dalam bidang kecerdasan buatan, dengan lancar menggabungkan pelbagai jenis data -seperti teks, imej, audio, dan video -ke dalam sistem bersatu yang meningkatkan keupayaan teknologi pintar. Sistem -sistem ini bergantung kepada ejen pintar autonomi yang boleh memproses, menganalisis, dan mensintesis maklumat secara bebas dari pelbagai sumber, memudahkan pemahaman yang lebih mendalam dan lebih nuanced mengenai situasi yang kompleks.
Dengan menggabungkan input multimodal dengan fungsi agentik, sistem ini secara dinamik boleh menyesuaikan diri dalam masa nyata untuk mengubah persekitaran dan interaksi pengguna, yang menawarkan pengalaman yang lebih responsif dan pintar. Gabungan ini bukan sahaja meningkatkan kecekapan operasi di pelbagai industri tetapi juga meningkatkan interaksi manusia-komputer, menjadikannya lebih cair, intuitif, dan sedar secara kontekstual. Akibatnya, rangka kerja aggenik multimodal ditetapkan untuk membentuk semula cara kita berinteraksi dan menggunakan teknologi, memacu inovasi dalam aplikasi yang tidak terkira banyaknya di seluruh sektor.
Objektif PembelajaranJadual Kandungan Sistem AI Agentik dengan keupayaan analisis imej Membina sistem agenik multi-modal untuk menerangkan tingkah laku stok dari carta stok
Crewai adalah rangka kerja sumber terbuka yang direka untuk mengatur agen AI autonomi ke dalam pasukan yang kohesif, membolehkan mereka menangani tugas-tugas yang kompleks. Di dalam Crewai, setiap ejen diberikan peranan khusus, dilengkapi dengan alat yang ditetapkan, dan didorong oleh matlamat yang jelas, mencerminkan struktur krew kerja dunia sebenar.
Alat penglihatan memperluaskan keupayaan Crewai, membolehkan ejen memproses dan memahami data teks berasaskan imej, dengan itu mengintegrasikan maklumat visual ke dalam proses membuat keputusan mereka. Ejen boleh memanfaatkan alat penglihatan untuk mengekstrak teks dari imej dengan hanya menyediakan URL atau laluan fail, meningkatkan keupayaan mereka untuk mengumpulkan maklumat dari pelbagai sumber. Selepas teks diekstrak, ejen kemudian boleh menggunakan maklumat ini untuk menjana tindak balas yang komprehensif atau laporan terperinci, lebih lanjut mengautomasikan aliran kerja dan meningkatkan kecekapan keseluruhan. Untuk menggunakan alat penglihatan secara berkesan, perlu menetapkan kunci API OpenAI dalam pembolehubah persekitaran, memastikan integrasi lancar dengan model bahasa.Kami akan membina sistem agenik yang canggih dan multi-modal yang akan memanfaatkan alat penglihatan dari Crewai yang direka untuk menafsirkan dan menganalisis carta saham (dibentangkan sebagai imej) daripada dua syarikat. Sistem ini kemudian akan memanfaatkan kuasa model DeepSeek-R1-Distill-Qwen-7B untuk memberikan penjelasan terperinci tentang tingkah laku saham syarikat ini, yang menawarkan pandangan yang baik ke dalam prestasi dua syarikat dan membandingkan tingkah laku mereka. Pendekatan ini membolehkan pemahaman yang komprehensif dan perbandingan trend pasaran dengan menggabungkan analisis data visual dengan model bahasa canggih, membolehkan pengambilan keputusan yang bermaklumat.
Model DeepSeek-R1-Distill-Qwen-7b adalah salah satu model Deepseek R1 yang disuling. Ia adalah versi sulingan seni bina DeepSeek-R1 yang lebih besar, yang direka untuk menawarkan kecekapan yang dipertingkatkan sambil mengekalkan prestasi yang mantap. Berikut adalah beberapa ciri utama:
Model cemerlang dalam tugas matematik, mencapai skor yang mengagumkan
92.8% pada penanda aras Math-500, menunjukkan keupayaannya untuk mengendalikan penalaran matematik yang kompleks dengan berkesan. Sebagai tambahan kepada kehebatan matematiknya, DeepSeek-R1-Distill-Qwen-7b melakukan dengan baik pada tugas-tugas yang membantah faktual, pemarkahan
49.1% pada GPQA Diamond,kami akan memanfaatkan model ini untuk menerangkan dan mencari alasan di sebalik tingkah laku stok syarikat menyiarkan pengekstrakan maklumat dari imej carta saham.
Kami akan menggunakan Ollama untuk menarik model LLM dan menggunakan T4 GPU di Google Colab untuk membina sistem agenik multi-modal ini.
!pip install crewai crewai_tools !sudo apt update !sudo apt install -y pciutils !pip install langchain-ollama !curl -fsSL https://ollama.com/install.sh | sh !pip install ollama==0.4.2
import threading import subprocess import time def run_ollama_serve(): subprocess.Popen(["ollama", "serve"]) thread = threading.Thread(target=run_ollama_serve) thread.start() time.sleep(5)
!ollama pull deepseek-r1
import os from crewai import Agent, Task, Crew, Process, LLM from crewai_tools import LlamaIndexTool from langchain_openai import ChatOpenAI from crewai_tools import VisionTool vision_tool = VisionTool() os.environ['OPENAI_API_KEY'] ='' os.environ["OPENAI_MODEL_NAME"] = "gpt-4o-mini" llm = LLM( model="ollama/deepseek-r1", )
def create_crew(image_url,image_url1): #Agent For EXTRACTNG INFORMATION FROM STOCK CHART stockchartexpert= Agent( role="STOCK CHART EXPERT", goal="Your goal is to EXTRACT INFORMATION FROM THE TWO GIVEN %s & %s stock charts correctly """%(image_url, image_url1), backstory="""You are a STOCK CHART expert""", verbose=True,tools=[vision_tool], allow_delegation=False ) #Agent For RESEARCH WHY THE STOCK BEHAVED IN A SPECIFIC WAY stockmarketexpert= Agent( role="STOCK BEHAVIOUR EXPERT", goal="""BASED ON THE PREVIOUSLY EXTRACTED INFORMATION ,RESEARCH ABOUT THE RECENT UPDATES OF THE TWO COMPANIES and EXPLAIN AND COMPARE IN SPECIFIC POINTS WHY THE STOCK BEHAVED THIS WAY . """, backstory="""You are a STOCK BEHAVIOUR EXPERT""", verbose=True, allow_delegation=False,llm = llm ) #Task For EXTRACTING INFORMATION FROM A STOCK CHART task1 = Task( description="""Your goal is to EXTRACT INFORMATION FROM THE GIVEN %s & %s stock chart correctly """%((image_url,image_url1)), expected_output="information in text format", agent=stockchartexpert, ) #Task For EXPLAINING WITH ENOUGH REASONINGS WHY THE STOCK BEHAVED IN A SPECIFIC WAY task2 = Task( description="""BASED ON THE PREVIOUSLY EXTRACTED INFORMATION ,RESEARCH ABOUT THE RECENT UPDATES OF THE TWO COMPANIES and EXPLAIN AND COMPARE IN SPECIFIC POINTS WHY THE STOCK BEHAVED THIS WAY.""", expected_output="Reasons behind stock behavior in BULLET POINTS", agent=stockmarketexpert ) #Define the crew based on the defined agents and tasks crew = Crew( agents=[stockchartexpert,stockmarketexpert], tasks=[task1,task2], verbose=True, # You can set it to 1 or 2 to different logging levels ) result = crew.kickoff() return result
Di bawah dua carta stok diberikan sebagai input kepada krew
text = create_crew("https://www.eqimg.com/images/2024/11182024-chart6-equitymaster.gif","https://www.eqimg.com/images/2024/03262024-chart4-equitymaster.gif") pprint(text)
Mamaearth's stock exhibited volatility during the year due to internal<br> challenges that led to significant price changes. These included unexpected<br> product launches and market controversies which caused both peaks and<br> troughs in the share price, resulting in an overall fluctuating trend.<br><br>On the other hand, Zomato demonstrated a generally upward trend in its share<br> price over the same period. This upward movement can be attributed to<br> expanding business operations, particularly with successful forays into<br> cities like Bengaluru and Pune, enhancing their market presence. However,<br> near the end of 2024, external factors such as a major scandal or regulatory<br> issues might have contributed to a temporary decline in share price despite<br> the overall positive trend.<br><br>In summary, Mamaearth's stock volatility stems from internal inconsistencies<br> and external controversies, while Zomato's upward trajectory is driven by<br> successful market expansion with minor setbacks due to external events.
output akhir
text = create_crew("https://s3.tradingview.com/p/PuKVGTNm_mid.png","https://images.cnbctv18.com/uploads/2024/12/bikaji-dec12-2024-12-b639f48761fab044197b144a2f9be099.jpg?im=Resize,width=360,aspect=fit,type=normal") print(text)
Seperti yang dilihat dari output akhir, sistem agentik telah memberikan analisis yang baik dan perbandingan tingkah laku harga saham dari carta saham dengan penjelasan yang rumit mengenai trend yang dilihat seperti prestasi Bikaji yang mampan berbanding dengan corak kenaikan harga makanan yang gembira.
KESIMPULAN
Takeaways Key
Rangka Kerja Agentik Multimodal:
Soalan Lazim
Q1. Apakah rangka kerja aggenik multimodal dalam ai?
Ans. Alat Visi AI Crew membolehkan ejen mengekstrak dan memproses teks dari imej. Keupayaan ini membolehkan sistem memahami data visual dan mengintegrasikannya ke dalam proses membuat keputusan, meningkatkan kecekapan aliran kerja.
Q4. Industri apa yang boleh mendapat manfaat daripada sistem AIS AI dengan keupayaan analisis imej?Ans. Sistem ini sangat bermanfaat dalam industri seperti penjagaan kesihatan, pembuatan, dan runcit, di mana analisis masa nyata dan ketepatan dalam pengiktirafan imej adalah penting untuk tugas-tugas seperti diagnosis perubatan dan kawalan kualiti. Apakah model sulingan DeepSeek R1?
Ans. Model sulingan DeepSeek-R1 adalah versi yang lebih kecil dan lebih cekap dari model DeepSeek-R1 yang lebih besar, yang dibuat menggunakan proses yang dipanggil penyulingan, yang mengekalkan banyak kuasa penalaran model asal sambil mengurangkan tuntutan pengiraan. Model-model sulingan ini disesuaikan dengan data yang dihasilkan oleh DeepSeek-R1. Beberapa contoh model sulingan ini ialah DeepSeek-R1-Distill-Qwen-1.5b, DeepSeek-R1-Distill-Qwen-7b, DeepSeek-R1-Distill-Qwen-14b, Deepseek-R1-Distill-Llama-8b antara lain.Atas ialah kandungan terperinci Bagaimana Membina Sistem Agentik Multi-Modal Untuk Wawasan Saham?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!