통찰력 결론 자주 묻는 질문
이미지 분석 기능이있는 에이전트 AI 시스템
정교한 이미지 분석 기능으로 강화 된 에이전트 AI 시스템은 필수 불가능한 기능을 가능하게하여 산업을 변화시키고 있습니다.
즉각적인 시각적 데이터 처리 : - 이러한 고급 시스템은 실시간으로 엄청난 양의 시각 정보를 분석 할 수있는 능력을 가지고 있으며, 의료, 제조 및 소매를 포함한 다양한 부문의 운영 효율성을 극적으로 향상시킵니다. 이 빠른 처리는 빠른 의사 결정과 동적 조건에 대한 즉각적인 응답을 용이하게합니다.
이미지 인식의 우수한 정밀도 : 자랑 인식 정확도 95%를 능가하는 에이전트 AI는 이미지 인식 작업에서 잘못된 양성의 발생을 실질적으로 감소시킵니다. 이 높은 수준의 정밀도는 정확도가 가장 중요한 응용 분야에 중요하고 신뢰할 수있는 결과로 해석됩니다.
- 자율적 인 작업 실행 : 이미지 분석을 작동 프레임 워크에 원활하게 통합하여 이러한 지능형 시스템은 직접적인 인적 감독을 필요로하지 않고 의료 진단을 제공하거나 감시 작업을 수행하는 것과 같은 복잡한 작업을 자율적으로 실행할 수 있습니다. 이 자동화는 워크 플로를 간소화 할뿐만 아니라 인적 오류의 잠재력을 최소화하여 생산성과 신뢰성을 높이는 길을 열어줍니다.
승무원 AI 비전 도구
Crewai는 자율 AI 에이전트를 응집력있는 팀으로 조정하도록 설계된 최첨단 오픈 소스 프레임 워크입니다. Crewai 내에서 각 에이전트는 특정 역할을 할당하고 지정된 도구를 갖추고 있으며 잘 정의 된 목표로 인해 실제 작업 승무원의 구조를 반영합니다. - .
Vision Tool은 Crewai의 기능을 확장하여 에이전트가 이미지 기반 텍스트 데이터를 처리하고 이해하여 시각적 정보를 의사 결정 프로세스에 통합 할 수 있도록합니다. 에이전트는 비전 도구를 활용하여 단순히 URL 또는 파일 경로를 제공하여 이미지에서 텍스트를 추출하여 다양한 소스에서 정보를 수집 할 수있는 능력을 향상시킬 수 있습니다. 텍스트를 추출한 후, 에이전트는이 정보를 활용하여 포괄적 인 응답 또는 상세 보고서를 생성하고 워크 플로우를 추가로 자동화하고 전반적인 효율성을 향상시킬 수 있습니다. 비전 도구를 효과적으로 사용하려면 환경 변수 내에서 OpenAI API 키를 설정하여 언어 모델과 완벽하게 통합해야합니다. 주식 차트에서 재고 행동을 설명하기 위해 다중 모달 에이전트 시스템 구축
우리는 두 회사의 재고 차트 (이미지로 제시된)를 해석하고 분석하도록 설계된 Crewai의 비전 도구를 먼저 활용할 정교하고 다중 모달 에이전트 시스템을 구성 할 것입니다. 이 시스템은 DeepSeek-R1-Distill-Qwen-7B 모델의 힘을 활용하여 이들 회사의 주식 행동에 대한 자세한 설명을 제공하여 두 회사의 성과에 대한 통찰력을 제공하고 행동을 비교할 것입니다. 이 접근법은 시각적 데이터 분석을 고급 언어 모델과 결합하여 정보에 입각 한 의사 결정을 가능하게하여 시장 동향을 포괄적으로 이해하고 비교할 수 있습니다.
deepseek-r1-distill-qwen-7b
더 컴팩트 한 언어 모델에서 사용하기위한 DeepSeek R1의 고급 추론 능력을 조정하기 위해 제작자는 DeepSeek R1 자체가 생성 한 800,000 개의 예제 데이터 세트를 편집했습니다. 그런 다음이 예는 Qwen 및 Llama와 같은 기존 모델을 미세 조정하는 데 사용되었습니다. 결과는이 비교적 간단한 지식 증류 방법이 R1의 정교한 추론 기능을 다른 모델로 효과적으로 전송했음을 보여주었습니다.
DeepSeek-R1-Distill-Qwen-7B 모델은 증류 된 Deepseek R1의 모델 중 하나입니다. 더 큰 DeepSeek-R1 아키텍처의 증류 버전으로, 강력한 성능을 유지하면서 효율성을 높이도록 설계되었습니다. 다음은 몇 가지 주요 기능입니다
모델은 수학적 작업에서 탁월하여 Math-500 벤치 마크에서 인상적인 점수를 얻었으며, 복잡한 수학적 추론을 효과적으로 처리 할 수있는 능력을 보여줍니다.
.
수학적 능력 외에도 DeepSeek-R1-Distill-Qwen-7B는 사실상의 질문 답변 작업에 대해 합리적으로 잘 수행하며 GPQA 다이아몬드에서
49.1%, 수학적 추론 능력 사이의 균형을 잘 나타냅니다.
우리는이 모델을 활용하여 주식 차트 이미지에서 정보를 추출한 후 회사 주식의 행동에 대한 추론을 설명하고 찾을 것입니다.
Google Colab에서 Ollama를 사용한 실습 파이썬 구현
우리는 LLM 모델을 당기고이 멀티 모달 에이전트 시스템을 구축하기 위해 Google Colab에서 T4 GPU를 활용하기 위해 Ollama를 사용할 것입니다.1 단계. 필요한 라이브러리를 설치하십시오
2 단계. Ollama Server를 설정하기위한 스레딩 활성화
!pip install crewai crewai_tools
!sudo apt update
!sudo apt install -y pciutils
!pip install langchain-ollama
!curl -fsSL https://ollama.com/install.sh | sh
!pip install ollama==0.4.2
로그인 후 복사
3 단계. 올라마 모델을 당기는
4 단계. OpenAI API 키 및 LLM 모델 import threading
import subprocess
import time
def run_ollama_serve():
subprocess.Popen(["ollama", "serve"])
thread = threading.Thread(target=run_ollama_serve)
thread.start()
time.sleep(5) 정의
5 단계. 승무원의 에이전트, 작업 정의
!ollama pull deepseek-r1
로그인 후 복사
6 단계. 승무원 실행
아래 두 개의 주식 차트는 승무원에 대한 입력으로 주어졌습니다
import os
from crewai import Agent, Task, Crew, Process, LLM
from crewai_tools import LlamaIndexTool
from langchain_openai import ChatOpenAI
from crewai_tools import VisionTool
vision_tool = VisionTool()
os.environ['OPENAI_API_KEY'] =''
os.environ["OPENAI_MODEL_NAME"] = "gpt-4o-mini"
llm = LLM(
model="ollama/deepseek-r1",
)
로그인 후 복사
def create_crew(image_url,image_url1):
#Agent For EXTRACTNG INFORMATION FROM STOCK CHART
stockchartexpert= Agent(
role="STOCK CHART EXPERT",
goal="Your goal is to EXTRACT INFORMATION FROM THE TWO GIVEN %s & %s stock charts correctly """%(image_url, image_url1),
backstory="""You are a STOCK CHART expert""",
verbose=True,tools=[vision_tool],
allow_delegation=False
)
#Agent For RESEARCH WHY THE STOCK BEHAVED IN A SPECIFIC WAY
stockmarketexpert= Agent(
role="STOCK BEHAVIOUR EXPERT",
goal="""BASED ON THE PREVIOUSLY EXTRACTED INFORMATION ,RESEARCH ABOUT THE RECENT UPDATES OF THE TWO COMPANIES and EXPLAIN AND COMPARE IN SPECIFIC POINTS WHY THE STOCK BEHAVED THIS WAY . """,
backstory="""You are a STOCK BEHAVIOUR EXPERT""",
verbose=True,
allow_delegation=False,llm = llm
)
#Task For EXTRACTING INFORMATION FROM A STOCK CHART
task1 = Task(
description="""Your goal is to EXTRACT INFORMATION FROM THE GIVEN %s & %s stock chart correctly """%((image_url,image_url1)),
expected_output="information in text format",
agent=stockchartexpert,
)
#Task For EXPLAINING WITH ENOUGH REASONINGS WHY THE STOCK BEHAVED IN A SPECIFIC WAY
task2 = Task(
description="""BASED ON THE PREVIOUSLY EXTRACTED INFORMATION ,RESEARCH ABOUT THE RECENT UPDATES OF THE TWO COMPANIES and EXPLAIN AND COMPARE IN SPECIFIC POINTS WHY THE STOCK BEHAVED THIS WAY.""",
expected_output="Reasons behind stock behavior in BULLET POINTS",
agent=stockmarketexpert
)
#Define the crew based on the defined agents and tasks
crew = Crew(
agents=[stockchartexpert,stockmarketexpert],
tasks=[task1,task2],
verbose=True, # You can set it to 1 or 2 to different logging levels
)
result = crew.kickoff()
return result
로그인 후 복사
최종 출력
최종 출력에서 볼 수 있듯이, 에이전트 시스템은 도시로의 진출과 같은 충분한 추론으로 주식 차트의 주가 행동을 상당히 좋은 분석과 비교하여 Zomato의 주가 상승 추세 뒤에 비즈니스 운영의 확장을 제공했습니다.
주식 통찰력을위한 다중 모달 에이전트 시스템의 또 다른 예
두 회사에 대한 주식 차트의 주가 행동을 확인하고 비교해 봅시다 - Jubilant Food Works & Bikaji Foods International Ltd. 2024 년.
text = create_crew("https://www.eqimg.com/images/2024/11182024-chart6-equitymaster.gif","https://www.eqimg.com/images/2024/03262024-chart4-equitymaster.gif")
pprint(text)
로그인 후 복사
최종 출력
최종 출력에서 볼 수 있듯이, 에이전트 시스템은 기뻐하는 Foodworks의 낙관적 패턴과 대조적으로 비카 지의 지속적인 성능과 같은 트렌드에 대한 정교한 설명과 함께 주식 차트의 주가 행동을 상당히 좋은 분석과 비교했습니다.
결론
결론적으로, 다중 모드 에이전트 프레임 워크는 더 나은 실시간 의사 결정을 위해 다양한 데이터 유형을 혼합하여 AI의 변환 적 변화를 나타냅니다. 이 시스템은 고급 이미지 분석 및 에이전트 기능을 통합하여 적응 형 인텔리전스를 향상시킵니다. 결과적으로 다양한 부문에서 효율성과 정확도를 최적화합니다. Crew AI Vision Tool 및 DeepSeek R1 모델은 이러한 프레임 워크가 재고 동작 분석과 같은 정교한 응용 프로그램을 어떻게 가능하게하는지 보여줍니다. 이 발전은 혁신을 주도하고 의사 결정을 개선하는 데있어 AI의 성장 역할을 강조합니다. 키 테이크 아웃
멀티 모달 에이전트 프레임 워크 : 이 프레임 워크는 텍스트, 이미지, 오디오 및 비디오를 통합 AI 시스템에 통합하여 인공 지능 기능을 향상시킵니다. 이 시스템 내의 지능형 에이전트는 다양한 소스의 정보를 독립적으로 처리, 분석 및 종합합니다. 이 능력은 복잡한 상황에 대한 미묘한 이해를 발전시켜 AI를보다 적응력 있고 반응 적으로 만들 수 있습니다.
실시간 적응 : - 다중 모드 입력을 에이전트 기능과 병합하여 이러한 시스템은 변화하는 환경에 동적으로 적응합니다. 이 적응성은보다 반응적이고 지능적인 사용자 상호 작용을 가능하게합니다. 여러 데이터 유형의 통합은 의료, 제조 및 소매를 포함한 다양한 부문에서 운영 효율성을 향상시킵니다. 의사 결정 속도와 정확성을 향상시켜 더 나은 결과를 초래합니다.
이미지 분석 기능 : 고급 이미지 인식이있는 에이전트 AI 시스템은 대량의 시각적 데이터를 실시간으로 처리 할 수있어 정확도가 중요한 응용 분야에 대한 정확한 결과를 제공 할 수 있습니다. 이 시스템은 의료 진단 및 감시와 같은 복잡한 작업을 자율적으로 수행하여 인적 오류를 줄이고 생산성을 향상시킵니다.
Crew AI Vision Tool : >이 도구는 Crewai 내 자율적 인 에이전트가 이미지에서 텍스트를 추출하고 처리하여 의사 결정 기능을 향상시키고 전반적인 워크 플로 효율을 향상시킬 수 있습니다.
DeepSeek-R1-Distill-Qwen-7B 모델 : 이 증류 모델은 강력한 성능을 제공하면서보다 컴팩트하고 수학적 추론 및 사실적인 질문에 대한 대답과 같은 작업에서 탁월한 성능을 제공하여 주식 동작을 분석하는 데 적합합니다. - >.
이 기사에 나와있는 미디어는 Analytics Vidhya가 소유하지 않으며 저자의 재량에 따라 사용됩니다.
자주 묻는 질문
q1. AI의 다중 모드 에이전트 프레임 워크는 무엇입니까? 멀티 모달 에이전트 프레임 워크는 텍스트, 이미지, 오디오 및 비디오와 같은 다양한 데이터 유형을 통합 AI 시스템으로 결합합니다. 이 통합을 통해 지능형 에이전트는보다 미묘하고 효율적인 의사 결정을 위해 여러 형태의 데이터를 분석하고 처리 할 수 있습니다. 승무원 ai는 무엇입니까? - ans. Crew AI는 자율 AI 에이전트를 복잡한 작업을 완료하기 위해 공동 작업하는 응집력있는 팀으로 자율적 인 AI 에이전트를 조정하도록 설계된 고급 오픈 소스 프레임 워크입니다. 시스템 내의 각 에이전트는 지정된 도구를 갖춘 특정 역할을 할당하고 잘 정의 된 목표에 의해 주도되어 실제 작업 승무원의 구조와 기능을 모방합니다. Q3. 승무원 AI Vision Tool은 멀티 모달 시스템을 어떻게 향상 시키는가? Crew AI Vision 도구를 사용하면 에이전트가 이미지에서 텍스트를 추출하고 처리 할 수 있습니다. 이 기능을 통해 시스템은 시각적 데이터를 이해하고 의사 결정 프로세스에 통합하여 워크 플로 효율을 더욱 향상시킬 수 있습니다. 이미지 분석 기능을 갖춘 에이전트 AI 시스템의 혜택은 무엇입니까? 이러한 시스템은 의료, 제조 및 소매와 같은 산업에서 특히 유익하며, 이미지 인식의 실시간 분석 및 정밀도는 의료 진단 및 품질 관리와 같은 작업에 중요합니다. DeepSeek R1의 증류 모델은 무엇입니까? ans. DeepSeek-R1의 증류 모델은 더 크고 효율적인 DeepSeek-R1 모델의 더 작고 효율적인 버전으로, 증류라는 프로세스를 사용하여 생성되며, 이는 원래 모델의 추론력을 많이 보존하면서 계산 요구를 줄입니다. 이 증류 모델은 DeepSeek-R1에 의해 생성 된 데이터를 사용하여 미세 조정됩니다. 이러한 증류 모델의 일부 예는 DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B, DeepSeek-R1-Distill-Qwen-14B, DeepSeek-R1-Distill-Llama-8B입니다.