プロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。
Xi Xiaoyao Technology Talk 原文
著者 | IQ はいたるところで低下しています
最近、多くのチームがユーザーフレンドリーな ChatGPT に基づいて再作成されており、その多くは比較的目を引くものです。結果。 InternChat の取り組みでは、マルチモーダルなタスクにおいて言語 (カーソルやジェスチャー) を超えた方法でチャットボットと対話することにより、ユーザーの使いやすさを重視しています。 InternChat という名前も興味深いもので、インタラクション、非言語、チャットボットの略で、iChat とも呼ばれます。純粋な言語に依存する既存の対話型システムとは異なり、iChat はポインティング指示を追加することにより、ユーザーとチャットボット間のコミュニケーションの効率を大幅に向上させます。さらに、作者は、キャプチャと視覚的な質問応答を実行できる Husky と呼ばれる大規模な視覚言語モデルも提供しており、わずか 70 億のパラメータで GPT-3.5-turbo を印象付けることもできます。
ただし、デモ Web サイトの人気のため、チームは正式に体験ページを一時的に閉鎖しました。まずは次のビデオで本作の内容を理解しましょう~
論文タイトル:
InternChat: 言語を超えたチャットボットとの対話によるビジョン中心のタスクの解決
紙のリンク:
https://www.php.cn/link/7c9966afcc510cf5a40621d1d92bdaf1
デモアドレス:
https://www.php.cn/link/e355ad06c5a89f911fbb0aff2de52435
プロジェクトアドレス:
https://www.php.cn /link/ 2d13d901966a8eaa7f9c943eba6a540b
システムの主な機能
作者はプロジェクトのホームページにいくつかのタスクのスクリーンショットを提供しているので、この対話型システムのいくつかの機能と効果を直感的に確認できます。 :
(a) 隠れたオブジェクトの削除
(b) インタラクティブな画像編集
(c) 画像生成
(d) インタラクティブな視覚的な質問と回答
##( e) インタラクティブな画像生成
(f) ビデオハイライトの説明
紙概要
ここで、この記事で言及されている 2 つの概念を最初に紹介します。
- ビジョン中心のタスク: コンピューターが世界から見ているものを理解し、それに応じて反応するため。
- 非言語的指示の形式でのコミュニケーション: カーソルや手のジェスチャーなどの指示動作。
▲図 1 iChat の全体的なアーキテクチャ
iChat は、視覚中心のタスクを実行するために、ポインティングと言語指示の利点を組み合わせています。図 1 に示すように、このシステムは 3 つの主要コンポーネントで構成されています:
- 画像またはビデオ上のポインティング命令を処理する認識ユニット;
- 言語を正確に解析できる補助制御を備えていますメカニズムの指示 LLM コントローラー;
- HuggingFace のさまざまなオンライン モデル、ユーザーがトレーニングしたプライベート モデル、およびその他のアプリケーション (電卓や検索エンジンなど) を統合するオープンワールド ツールキット。
これは 3 つのレベルで効果的に動作します。すなわち:
- 基本的なインタラクション;
- 言語ガイドによるインタラクション;
- ポイントツー言語による拡張インタラクション。
したがって、図 2 に示すように、純粋言語システムがタスクを完了できない場合でも、システムは複雑な対話型タスクを正常に実行できます。
▲図 2 言語駆動型の対話型システムの利点を示す
実験
まず、言語と非言語の組み合わせを見てみましょう。言語 対話型システムとの通信を改善するためのコマンド。純粋な言語命令と比較したこのハイブリッド モデルの利点を実証するために、研究チームはユーザー調査を実施しました。参加者は Visual ChatGPT と iChat を使用してチャットし、それを使用した経験についてフィードバックを与えました。表 1 と 2 の結果は、iChat が Visual ChatGPT よりも効率的で使いやすいことを示しています。
▲表 1 「何かを削除する」に関するユーザー調査
▲表 2 「何かに置き換える」「何か」 " ユーザー調査
概要
ただし、このシステムには次のようないくつかの制限があります。
- iChat の効率は大幅に向上しました。程度は品質に依存します。そしてその基礎となるオープンソースモデルの精度。ただし、これらのモデルには、iChat のパフォーマンスに悪影響を与える制限やバイアスがある可能性があります。
- ユーザーの対話がより複雑になったり、インスタンスの数が増加したりすると、システムは精度と応答時間を維持する必要がありますが、iChat にとってはそれが困難になる可能性があります。
- さらに、現在のビジョンと言語ベースのモデルの間の学習可能な連携が不足しています。たとえば、指示データによって調整できる機能が欠如しています。
- iChat は、トレーニング データ以外の新しい状況や異常な状況に応答することが難しく、パフォーマンスが低下する可能性があります。
- さまざまなデバイスやプラットフォーム間でシームレスな統合を実現することは、さまざまなハードウェア機能、ソフトウェアの制限、アクセシビリティ要件のため、困難な場合があります。
プロジェクトのホームページに掲載されている計画リストには、まだ達成できていない目標がいくつかありますが、その中には、編集者が新しい対話システムで毎回経験しなければならない中国語の対話も含まれています。現時点では、このシステムはおそらく当面は中国語をサポートしていないと思われますが、解決策はないようです。ほとんどのマルチモーダル データセットは英語に基づいているため、英語から中国語への翻訳はオンライン リソースと処理時間を無駄にすると推定されています。中国化への道にはまだ時間がかかるだろう。
以上がプロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Terrariaでコマンドを使用してアイテムを取得するにはどうすればよいですか? 1. Terraria でアイテムを与えるコマンドは何ですか? Terraria ゲームでは、アイテムにコマンドを与えることは非常に実用的な機能です。このコマンドにより、プレイヤーはモンスターと戦ったり、特定の場所にテレポートしたりすることなく、必要なアイテムを直接入手できます。これにより、時間が大幅に節約され、ゲームの効率が向上し、プレイヤーは世界の探索と構築により集中できるようになります。全体として、この機能によりゲーム体験がよりスムーズで楽しいものになります。 2. Terraria を使用してアイテム コマンドを与える方法 1. ゲームを開き、ゲーム インターフェイスに入ります。 2. キーボードの「Enter」キーを押してチャットウィンドウを開きます。 3. チャットウィンドウにコマンド形式「/give[プレイヤー名][アイテムID][アイテム数量]」を入力します。

人型ロボット「アメカ」が第二世代にバージョンアップ!最近、世界移動通信会議 MWC2024 に、世界最先端のロボット Ameca が再び登場しました。会場周辺ではアメカに多くの観客が集まった。 GPT-4 の恩恵により、Ameca はさまざまな問題にリアルタイムで対応できます。 「ダンスをしましょう。」感情があるかどうか尋ねると、アメカさんは非常に本物そっくりの一連の表情で答えました。ほんの数日前、Ameca を支援する英国のロボット企業である EngineeredArts は、チームの最新の開発結果をデモンストレーションしたばかりです。ビデオでは、ロボット Ameca は視覚機能を備えており、部屋全体と特定のオブジェクトを見て説明することができます。最も驚くべきことは、彼女は次のこともできるということです。

今日は、時系列予測のパフォーマンスを向上させるために、時系列データを潜在空間上の大規模な自然言語処理 (NLP) モデルと整合させる方法を提案するコネチカット大学の最近の研究成果を紹介したいと思います。この方法の鍵は、潜在的な空間ヒント (プロンプト) を使用して時系列予測の精度を高めることです。論文タイトル: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting ダウンロードアドレス: https://arxiv.org/pdf/2403.05798v1.pdf 1. 大きな問題の背景モデル

今週、OpenAI、Microsoft、Bezos、Nvidiaが投資するロボット企業FigureAIは、7億ドル近くの資金調達を受け、来年中に自立歩行できる人型ロボットを開発する計画であると発表した。そしてテスラのオプティマスプライムには繰り返し良い知らせが届いている。今年が人型ロボットが爆発的に普及する年になることを疑う人はいないだろう。カナダに拠点を置くロボット企業 SanctuaryAI は、最近新しい人型ロボット Phoenix をリリースしました。当局者らは、多くのタスクを人間と同じ速度で自律的に完了できると主張している。人間のスピードでタスクを自律的に完了できる世界初のロボットである Pheonix は、各オブジェクトを優しくつかみ、動かし、左右にエレガントに配置することができます。自律的に物体を識別できる

産業オートメーション技術の分野では、人工知能 (AI) と Nvidia という無視できない 2 つの最近のホットスポットがあります。元のコンテンツの意味を変更したり、コンテンツを微調整したり、コンテンツを書き換えたり、続行しないでください。「それだけでなく、Nvidia はオリジナルのグラフィックス プロセッシング ユニット (GPU) に限定されていないため、この 2 つは密接に関連しています。」このテクノロジーはデジタル ツインの分野にまで広がり、新たな AI テクノロジーと密接に関係しています。「最近、NVIDIA は、Aveva、Rockwell Automation、Siemens などの大手産業オートメーション企業を含む多くの産業企業と提携に至りました。シュナイダーエレクトリック、Teradyne Robotics とその MiR および Universal Robots 企業も含まれます。最近、Nvidiahascoll

Machine Power Report 編集者: Wu Xin 国内版の人型ロボット + 大型模型チームは、衣服を折りたたむなどの複雑で柔軟な素材の操作タスクを初めて完了しました。 OpenAIのマルチモーダル大規模モデルを統合したFigure01の公開により、国内同業者の関連動向が注目を集めている。つい昨日、中国の「ヒューマノイドロボットのナンバーワン株」であるUBTECHは、Baidu Wenxinの大型モデルと深く統合されたヒューマノイドロボットWalkerSの最初のデモを公開し、いくつかの興味深い新機能を示した。 Baidu Wenxin の大規模モデル機能の恩恵を受けた WalkerS は次のようになります。 Figure01 と同様に、WalkerS は動き回るのではなく、机の後ろに立って一連のタスクを完了します。人間の命令に従って服をたたむことができる

以下の 10 種類の人型ロボットが私たちの未来を形作ります。 1. ASIMO: ホンダが開発した ASIMO は、最もよく知られている人型ロボットの 1 つです。身長 4 フィート、体重 119 ポンドの ASIMO には、高度なセンサーと人工知能機能が装備されており、複雑な環境をナビゲートし、人間と対話することができます。 ASIMO は多用途性を備えているため、障害を持つ人々の支援からイベントでのプレゼンテーションまで、さまざまなタスクに適しています。 2. Pepper: ソフトバンクロボティクスによって作成された Pepper は、人間の社会的パートナーになることを目指しています。表情豊かな顔と感情を認識する能力を備えた Pepper は、会話に参加したり、小売現場で手助けしたり、教育サポートを提供したりすることもできます。コショウ

掃除ロボットやモップ拭きロボットは、近年消費者の間で最も人気のあるスマート家電製品の 1 つです。操作の利便性、あるいは操作の必要がないことで、怠け者は手を解放し、消費者は日常の家事から「解放」され、好きなことにもっと時間を費やすことができるようになり、生活の質が向上します。この流行に乗って、市場に出回っているほぼすべての家電ブランドが独自の掃除ロボットや拭き掃除ロボットを製造しており、掃除ロボット市場全体が非常に活発になっています。しかし、市場の急速な拡大は必然的に隠れた危険をもたらします。多くのメーカーがより多くの市場シェアを急速に占有するために機械の海戦術を使用し、その結果、アップグレードポイントのない多くの新製品が生まれるとも言われています。まさに「マトリョーシカ」モデルです。ただし、すべての掃除ロボットやモップロボットがそうであるわけではありません。
