> 기술 주변기기 > 일체 포함 > Andrew Ng의 VisionAgent : 간소화 비전 AI 솔루션

Andrew Ng의 VisionAgent : 간소화 비전 AI 솔루션

Joseph Gordon-Levitt
풀어 주다: 2025-03-06 11:46:09
원래의
959명이 탐색했습니다.
<: :> VisionAgent : 혁신 컴퓨터 비전 응용 프로그램 개발 컴퓨터 비전은 의료, 제조 및 소매와 같은 산업을 변화시키고 있습니다. 그러나 비전 기반 솔루션을 구축하는 것은 종종 복잡하고 시간이 많이 걸립니다. Andrew Ng가 이끄는 Landingai는 생성 및 반복에서 배포에 이르기까지 전체 프로세스를 단순화하도록 설계된 생성 시각 AI 응용 프로그램 빌더 인 VisionAgent를 소개합니다. VisionAgent의 에이전트 객체 감지는 기존 객체 감지 방법을 능가하는 긴 데이터 레이블 및 모델 교육이 필요하지 않습니다. 텍스트 프롬프트 기반 탐지는 고품질 결과와 다목적 복잡한 객체 인식을 위해 고급 추론을 활용하여 빠른 프로토 타이핑 및 배포를 허용합니다. <:> 주요 기능은 다음과 같습니다

텍스트 프롬프트 기반 탐지 :

데이터 레이블 또는 모델 교육이 필요하지 않습니다.

고급 추론 :

정확한 고품질 출력을 보장합니다

다목적 인식 :

복잡한 개체와 시나리오를 효과적으로 처리합니다

VisionAgent는 간단한 코드 생성을 능가합니다. 계획, 도구 선택, 코드 생성 및 배포를 통해 개발자를 안내하는 AI 기반 어시스턴트 역할을합니다. 이 AI 지원을 통해 개발자는 몇 주가 아닌 몇 분 안에 반복 할 수 있습니다.

목차
  • 비전 에이전트 생태계 벤치 마크 평가 행동의 비전 에이전트
  • 프롬프트 : "바구니 안팎의 야채를 감지하십시오"
  • 프롬프트 : "비디오에서 빨간 차를 식별하십시오"
  • 결론
  • 비전 에이전트 생태계

    VisionAgent는 간소화 된 개발 경험을위한 세 가지 핵심 구성 요소로 구성됩니다.

    비전 에이전트 웹 앱

    비전 도서관

    VisionAgent 도구 라이브러리
    • 그들의 상호 작용을 이해하는 것은 VisionAgent의 잠재력을 극대화하는 데 중요합니다
    • 1. VisionAgent 웹 앱
    • VisionAgent 웹 앱은 광범위한 설정없이 비전 애플리케이션을 프로토 타이핑, 정제 및 배포하기위한 사용자 친화적 인 호스팅 플랫폼입니다. 직관적 인 웹 인터페이스를 사용하면 사용자가 다음을 수행 할 수 있습니다
    • 데이터를 쉽게 업로드하고 처리합니다 컴퓨터 비전 코드를 생성하고 테스트합니다 결과를 ​​시각화하고 조정하십시오 는 솔루션을 클라우드 엔드 포인트 또는 간소화 앱으로 배포합니다
    • 이로드 코드 접근 방식은 복잡한 지역 개발 환경이없는 AI 기반 비전 응용 프로그램을 실험하는 데 이상적입니다.

      2. VisionAgent 라이브러리

      VisionAgent 라이브러리는 프레임 워크의 핵심을 형성하여 프로그래밍 방식으로 AI 중심 비전 응용 프로그램을 작성하고 배포하는 데 필수적인 기능을 제공합니다. 주요 기능은 다음과 같습니다 Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions 에이전트 기반 계획 :

      여러 솔루션을 생성하고 최적의 솔루션을 자동으로 선택합니다. 도구 선택 및 실행 :

      다양한 비전 작업에 적합한 도구를 동적으로 선택합니다. 코드 생성 및 평가 :

      는 효율적인 Python 기반 구현을 생성합니다 내장 비전 모델 지원 :
        객체 감지, 이미지 분류 및 세분화에 다양한 컴퓨터 비전 모델을 활용합니다.
      • 로컬 및 클라우드 통합 : 는 지역 실행을 가능하게하거나 확장 성을 위해 Landingai의 클라우드 호스팅 모델을 활용합니다. 간단한 전원 채팅 앱은 채팅 인터페이스를 선호하는 사용자에게보다 직관적 인 상호 작용을 제공합니다.
      • 3. VisionAgent Tools Library
      • VisionAgent Tools Library는 특정 컴퓨터 비전 작업을위한 사전 구축 된 파이썬 기반 도구 모음을 제공합니다. 객체 감지 :
      • 이미지 또는 비디오에서 객체를 식별하고 찾습니다. 이미지 분류 :
      • 는 훈련 된 AI 모델을 기반으로 이미지를 분류합니다 QR 코드 읽기 : QR 코드에서 정보를 추출합니다 항목 계산 : 재고 또는 추적에 대한 개체를 계산합니다 이 도구는 동적 모델 레지스트리를 통해 다양한 비전 모델과 상호 작용하여 원활한 모델 스위칭을 허용합니다. 개발자는 사용자 정의 도구를 등록 할 수도 있습니다. 배포 서비스는 도구 라이브러리에 포함되어 있지 않습니다. 벤치 마크 평가
      • 1. 모델 및 접근 방식
      • 랜딩 ai (에이전트 객체 감지) : 에이전트 범주. Microsoft Florence-2 : 객체 감지 세트 열기 Google Owlv2 : 객체 감지 세트 열기 Alibaba Qwen2.5-VL-7B-Instruct :
      • 큰 멀티 모달 모델 (lmm).

      2. 평가 지표 모델은 다음을 사용하여 평가되었습니다

        리콜 :
      • 모든 관련 객체를 식별하는 모델의 능력을 측정합니다. 정밀도 : 탐지의 정확도를 측정합니다 (더 적은 오 탐지) f1 점수 : 균형 잡힌 정밀도 및 리콜 척도
      • 3. 성능 비교
      • <..> 모델 리콜 정밀도 f1 점수 착륙 ai 77.0% 82.6% (최고) Microsoft Florence-2 43.4% 36.6% 39.7% Google Owlv2 81.0% 29.5% 43.2% Alibaba Qwen2.5-VL-7B-Instruct 26.0% 54.0% 35.1% 테이블>

      4. 주요 결과

      AI의 에이전트 객체 감지가 가장 높은 F1 점수를 달성하여 정밀도와 리콜의 최상의 균형을 나타냅니다. 다른 모델은 리콜과 정밀 사이의 상충 관계를 보여 주었다 행동의 비전 에이전트 VisionAgent는 구조화 된 워크 플로를 사용합니다

      이미지 또는 비디오를 업로드하십시오

      텍스트 프롬프트를 제공합니다 (예 : "안경으로 사람들을 감지")

      비전 관리자는 입력을 분석합니다
      1. 탐지 결과를 받으십시오

        프롬프트 : "바구니 안팎의 야채를 감지하십시오"
      2. 1 단계 : 상호 작용

        사용자는 자연어를 사용하여 요청을 시작합니다. VisionAgent는 이해를 확인합니다.

        입력 이미지
      3. 상호 작용 예 "물체 감지를 사용하여 바구니 안팎의 야채를 감지하기 위해 코드를 생성 할 것입니다.". 2 단계 : 계획 VisionAgent는 최상의 접근법을 결정합니다

        시각적 질문 응답 (vqa)을 사용하여 이미지 콘텐츠를 이해합니다 탐지 방법에 대한 제안을 생성합니다 적절한 도구 (객체 감지, 색상 기반 분류)를 선택하십시오
      4. 3 단계 : execution
      5. 계획은 VisionAgent 라이브러리 및 도구 라이브러리를 사용하여 실행됩니다. 관찰 및 출력 VisionAgent는 구조화 된 결과를 제공합니다

        는 위치 (내부/외부 바구니)별로 분류 된 채소가 감지 된 채소 각 야채에 대한 경계 박스 좌표 배포 가능한 ai 모델.

        출력 예
      6. 프롬프트 : "비디오에서 빨간 차를 식별하십시오"

      이 예제는 비디오 프레임, VQA 및 Red Car를 식별하고 추적하는 제안을 사용하여 유사한 프로세스를 따릅니다. 출력은 비디오 전체에서 추적 자동차를 보여줍니다. (출력 이미지 예제는 간결성에 대해 생략되었지만 채소 감지 출력과 스타일이 비슷합니다.

      결론 VisionAgent는 AI 중심 비전 애플리케이션 개발을 간소화하고 지루한 작업을 자동화하고 즉시 사용 가능한 도구를 제공합니다. 속도, 유연성 및 확장 성은 AI 연구원, 개발자 및 비즈니스에 이익을줍니다. 향후 발전에는 더 강력한 모델과 광범위한 응용 프로그램 지원이 포함될 것입니다.

    위 내용은 Andrew Ng의 VisionAgent : 간소화 비전 AI 솔루션의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

    본 웹사이트의 성명
    본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
    저자별 최신 기사
    인기 튜토리얼
    더>
    최신 다운로드
    더>
    웹 효과
    웹사이트 소스 코드
    웹사이트 자료
    프론트엔드 템플릿