DetGPT は、画像の読み取り、チャット、クロスモーダル推論と測位の実行が可能で、複雑なシナリオを実装するためにここにあります。-AI-php.cn

人間は、人間の生活や仕事の処理を支援できるロボットを常に夢見てきました。「エアコンの温度を下げるのを手伝ってください」や「ショッピングモールの Web サイトの作成を手伝ってください」さえも、近年では OpenAI がリリースしたホームアシスタントや Copilot によって実現されています。

GPT-4 の出現は、視覚的な理解におけるマルチモーダル大規模モデルの可能性をさらに示しています。オープンソースの中小規模のモデルでは、LLAVA や minigpt-4 がよく機能しており、写真を見てチャットしたり、人間の食べ物の写真からレシピを推測したりすることもできます。ただし、これらのモデルは、実際の実装においては依然として重要な課題に直面しています: 正確な位置決め機能がなく、画像内のオブジェクトの特定の位置を与えることができず、特定のオブジェクトを検出するための人間の複雑な指示を理解できないため、多くの場合、モデルは、特定のオブジェクトを検出できない人間のタスクや特定のタスクを実行します。実際のシナリオでは、人々は複雑な問題に遭遇することがありますが、写真を撮ってスマートアシスタントに正しい答えを尋ねることができれば、このような「写真を撮って尋ねる」機能は単純に素晴らしいです。

「写真を撮って質問する」という機能を実現するには、ロボットには複数の能力が必要です:

1. 言語理解能力: 聞くことができる人間の意図を理解して理解することができる

#2. 視覚理解能力: 目に映る絵の中の物体を理解することができる

#3 . 常識的推論能力 : 複雑な人間の意図を、位置を特定できる正確なターゲットに変換する能力

#4. オブジェクト位置特定能力 : 画面上で対応するオブジェクトを位置特定し、検出する能力

現在、これらの 4 つの機能を備えているのは、少数の大規模モデル (Google の PaLM-E など) だけです。しかし、香港科技大学と香港大学の研究者は、完全にオープンソースのモデル DetGPT (正式名 DetectionGPT) を提案しました。このモデルでは 300 万のパラメータを微調整するだけでよく、モデルは複雑な推論とローカルな機能を簡単に持つことができます。オブジェクトの位置決め機能を備えており、大規模なほとんどのシーンに一般化できます。これは、モデルが自身の知識に基づいた推論を通じて人間の抽象的な指示を理解し、画像内の人間の興味のあるオブジェクトを簡単に識別できることを意味します。彼らはモデルを「写真と質問」のデモにしました。オンラインで体験することを歓迎します: https://detgpt.github.io/

DetGPT を使用すると、ユーザーは自然な操作ですべてを操作できます。煩雑なコマンドまたはインターフェイスが必要です。同時に、DetGPT はインテリジェントな推論機能とターゲット検出機能も備えており、ユーザーのニーズと意図を正確に理解できます。たとえば、人間が「冷たい飲み物が飲みたい」という音声コマンドを送ると、ロボットはまず現場で冷たい飲み物を探しますが、見つかりません。それで「このシーンには冷たい飲み物がないんだけど、どこで見つけたらいいんだろう？」と考え始めたんです。強力な常識推論モデルを通じて冷蔵庫を思い出したので、シーンをスキャンして冷蔵庫を見つけ、飲み物の場所をロックすることに成功しました。