Andrew NGのVisionAgent：Bision AI Solutionsの合理化-AI-php.cn

VisionAgent：コンピュータービジョンアプリケーション開発の革新

コンピュータービジョンは、ヘルスケア、製造、小売などの産業を変革しています。ただし、ビジョンベースのソリューションの構築は、多くの場合、複雑で時間がかかります。 Andrew Ngが率いるLandingaiは、作成や反復から展開まで、プロセス全体を簡素化するために設計された生成的な視覚的なAIアプリケーションビルダーであるVisionAgentを紹介します。

VisionAgentのエージェントオブジェクト検出は、従来のオブジェクト検出方法を上回る、長いデータのラベル付けとモデルトレーニングの必要性を排除します。そのテキストプロンプトベースの検出により、高品質の結果と多目的な複雑なオブジェクト認識のための高度な推論を利用して、迅速なプロトタイピングと展開が可能になります。

重要な機能には次のものが含まれます

テキストプロンプトベースの検出：

高度な推論：正確で高品質の出力を保証します
汎用性の認識：複雑なオブジェクトとシナリオを効果的に処理します。
VisionAgentは単純なコード生成を上回ります。これは、AIを搭載したアシスタントとして機能し、計画、ツールの選択、コード生成、展開を通じて開発者を導きます。このAI支援により、開発者は数週間ではなく数分で反復することができます。目次

VisionAgent Ecosystem

ベンチマーク評価

VisionAgent in Action

プロンプト：「バスケットとその周辺の野菜を検出します」
1. プロンプト：「ビデオで赤い車を識別する」
結論

VisionAgentは、合理化された開発エクスペリエンスのための3つのコアコンポーネントで構成されています。

VisionAgent Web App

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions VisionAgent Library

VisionAgent Tools Library

彼らの相互作用を理解することは、VisionAgentの可能性を最大化するために重要です

VisionAgent Webアプリは、大規模なセットアップなしでビジョンアプリケーションをプロトタイピング、改良、展開するためのユーザーフレンドリーなホストされたプラットフォームです。その直感的なWebインターフェイスを使用すると、ユーザーは次のことを可能にします

データを簡単にアップロードして処理します。

コンピュータービジョンコードを生成およびテストします

結果を視覚化して調整します。 Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

クラウドのエンドポイントまたは合理化されたアプリとしてソリューションを展開します。

2。 VisionAgent Library

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

VisionAgentライブラリはフレームワークのコアを形成し、AI駆動型ビジョンアプリケーションをプログラムで作成および展開するための重要な機能を提供します。主な機能には次のものがあります

エージェントベースの計画：複数のソリューションを生成し、最適なソリューションを自動的に選択します。
さまざまなビジョンタスクに適したツールを動的に選択します。コード生成と評価：
ビルトインビジョンモデルのサポート：オブジェクト検出、画像分類、セグメンテーションのために多様なコンピュータービジョンモデルを利用します。
ローカルとクラウドの統合：ローカルの実行を有効にするか、ランディングのクラウドホストモデルをスケーラビリティに使用します。
3。 VisionAgent Tools Library

VisionAgent Tools Libraryは、特定のコンピュータービジョンタスク用の事前に構築されたPythonベースのツールのコレクションを提供しています。

画像やビデオのオブジェクトを識別して見つけます。 Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

トレーニングされたAIモデルに基づいて画像を分類します。

QRコードの読み取り：QRコードから情報を抽出します
インベントリまたは追跡のオブジェクトをカウントします。
ベンチマーク評価
1。モデルとアプローチ

ランディングAI（エージェントオブジェクト検出）：

Microsoft Florence-2： Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions Open setオブジェクト検出。

alibaba qwen2.5-vl-7b-instruct：
2。評価メトリック
モデルは、を使用して評価されました

recall：関連するすべてのオブジェクトを識別するモデルの能力を測定します。

精度：検出の精度を測定します（誤検知が少ない）
f1スコア：
精度とリコールのバランスの取れた尺度。
3。パフォーマンスの比較

モデル recall 精度 f1スコア着陸ai 77.0％ 82.6％ 79.7％
（最高）
Microsoft Florence-2 43.4％ 36.6％ 39.7％ Google owlv2 81.0％ 29.5％ 43.2％ alibaba qwen2.5-vl-7b-instruct 26.0％ 54.0％ 35.1％
4。重要な調査結果

AIのエージェントオブジェクト検出のランディングは、最高のF1スコアを達成し、精度とリコールの最高のバランスを示しています。他のモデルは、リコールと精度の間にトレードオフを示しました
VisionAgent in Action

VisionAgentは、構造化されたワークフローを使用します：

画像またはビデオをアップロードします。

テキストプロンプトを提供します（たとえば、「メガネを持つ人を検出する」）。

VisionAgentは入力を分析します

検出結果を受信します。

プロンプト：「バスケットとその周辺の野菜を検出します」

ステップ1：相互作用

ユーザーは、自然言語を使用してリクエストを開始します。 VisionAgentは理解を確認します
入力画像

相互作用の例
「オブジェクト検出を使用して、バスケットの内側と外側の野菜を検出するコードを生成します。 "

ステップ2：計画

VisionAgentが最良のアプローチを決定します：

視覚的な質問応答（VQA）を使用して画像コンテンツを理解します
検出方法の提案を生成します
適切なツール（オブジェクト検出、カラーベースの分類）を選択します

ステップ3：実行

この計画は、VisionAgent Library and Tools Libraryを使用して実行されます。
観測と出力

VisionAgentは構造化された結果を提供します：

場所（内/外側のバスケット）で分類された野菜を検出しました。
各野菜の境界ボックス座標。

展開可能なAIモデル。

出力の例

プロンプト：「ビデオで赤い車を識別する」
この例は、ビデオフレーム、VQA、および提案を使用して、赤い車を特定して追跡するための提案を使用して、同様のプロセスに従います。出力は、ビデオ全体で追跡された車を表示します。（Brevityのために省略された出力画像の例ですが、野菜検出出力とスタイルが似ています）

結論

VisionAgentは、AI駆動型のビジョンアプリケーションの開発を合理化し、退屈なタスクを自動化し、すぐに使用できるツールを提供します。その速度、柔軟性、およびスケーラビリティは、AIの研究者、開発者、および企業に役立ちます。将来の進歩には、より強力なモデルとより広範なアプリケーションサポートが組み込まれる可能性があります。