目次
として知られる研究トピックです。この認知機能に基づいて、人間は、ナビゲーション、精神的回転、精神的紙折り、精神的シミュレーションなどの心的イメージの操作を通じて空間推論を促進します。図 1 は、ナビゲーション タスクに関わる人間のプロセスを示しています。人間は、ナビゲーション指示や地図画像などのさまざまな感覚入力を利用して、心の中で経路のイメージを作成することで、空間認識を強化し、意思決定を導きます。次に、彼らは心の目を通して経路計画をシミュレーションしました。
空間的推論
人間がナビゲーションなどのタスクで空間情報を処理する方法を考えると、地図などの心的イメージは空間を強化するために作成されることがよくあります。意思決定を導くための認識またはシミュレートされた動き。研究の目標は、LLM の空間認識を喚起し、中間推論ステップを視覚化することで実際の状況に基づいた推論を可能にすることです。
ホームページ テクノロジー周辺機器 AI 大規模言語モデルの空間推論能力を刺激する: 思考の視覚化のヒント

大規模言語モデルの空間推論能力を刺激する: 思考の視覚化のヒント

Apr 11, 2024 pm 03:10 PM
大規模な言語モデル llms ロボット技術

大規模言語モデルの空間推論能力を刺激する: 思考の視覚化のヒント

#大規模言語モデル (LLM) は、言語理解とさまざまな推論タスクにおいて優れたパフォーマンスを示します。しかし、人間の認知の重要な側面である空間推論におけるそれらの役割は、依然として十分に研究されていません。人間には、心の目として知られるプロセスを通じて、目に見えない物体や行動の精神的なイメージを作成する能力があり、目に見えない世界を想像することが可能になります。この認知能力に触発されて、研究者たちは「思考の視覚化 (VoT)」 を提案しました。 VoT は、LLM の推論の兆候を視覚化することで LLM の空間推論をガイドし、それによって後続の推論ステップをガイドすることを目的としています。研究者らは、VoT を、自然言語ナビゲーション、視覚ナビゲーション、2 次元グリッド世界での視覚舗装などのマルチホップ空間推論タスクに適用しました。 実験結果は、VoT が LLM の空間推論能力を大幅に強化することを示しています。特に、VoT は、これらのタスクに関して既存のマルチモーダル大規模言語モデル (MLLM) よりも優れたパフォーマンスを発揮します。 はじめに 近年、大規模言語モデル (LLM) は、さまざまな言語関連のタスクで目覚ましいパフォーマンスを達成しています。彼らは数学的推論、常識的推論、および記号的推論や論理的推論などの他の推論タスクでは成功しているにもかかわらず、空間的推論における能力は依然として解明されていません。 空間推論は人間の認識の基本的な機能です。

これにより、私たちは環境と対話することができます。これにより、オブジェクトとその動きの間の空間的関係についての理解と推論が必要なタスクが容易になります。言語モデルの空間推論は、空間情報について推論するために言語に大きく依存しており、人間の認知能力は言語推論をはるかに超えています。人間は、視覚的な認識からタスクに関連した抽象的な表現を作成できるだけでなく、心の目を通して目に見えないシーンを想像することもできます。これは、神経科学、心の哲学、認知科学の分野で
mentalimage

として知られる研究トピックです。この認知機能に基づいて、人間は、ナビゲーション、精神的回転、精神的紙折り、精神的シミュレーションなどの心的イメージの操作を通じて空間推論を促進します。図 1 は、ナビゲーション タスクに関わる人間のプロセスを示しています。人間は、ナビゲーション指示や地図画像などのさまざまな感覚入力を利用して、心の中で経路のイメージを作成することで、空間認識を強化し、意思決定を導きます。次に、彼らは心の目を通して経路計画をシミュレーションしました。

図 1: 人間は、空間推論中に精神的なイメージを作成することで、空間認識を強化し、意思決定を導くことができます。同様に、大規模言語モデル (LLM) は内部の精神的なイメージを構築できます。研究者らは、各中間ステップで LLM の思考を視覚化することで LLM の「心の目」を引き起こし、それによって空間的推論を促進する VoT を提案しました。 この認知メカニズムに触発されて、研究者らは、LLM には空間推論のために心の目の中で心的イメージを作成および操作する能力があると推測しています。図 1 に示すように、LLM はさまざまな形式の空間情報を処理および理解できる可能性があります。彼らは内部状態を視覚化し、心の目を通してこれらの心的イメージを操作して、空間的推論を強化するためのその後の推論ステップを導くことができるかもしれません。したがって、研究者らは、この能力を引き出すための 思考の視覚化 (VoT)

プロンプトを提案しました。この方法では、視覚空間スケッチパッドを LLM に追加して、推論ステップを視覚化し、後続のステップをガイドします。 VoT は、少数のデモンストレーションに依存したり、テキストから画像への視覚化に CLIP を使用したりするのではなく、デモンストレーション プロンプトを一切使用しません。この選択は、テキストベースのビジュアル アートからさまざまな心的イメージを取得する LLM の能力に由来しています。

大規模言語モデルの空間推論能力を刺激する: 思考の視覚化のヒント空間推論における VoT の有効性を評価するために、研究者らは、

自然言語ナビゲーション、視覚ナビゲーション、および視覚敷設

を含む、LLM の空間認識を必要とする 3 つのタスクを選択しました。これらのタスクでは、空間的、方向的、および幾何学的形状の推論を理解する必要があります。人間のような多感覚知覚をシミュレートするために、研究者らは、LLM の視覚ナビゲーションおよび視覚敷設タスクで豊富な入力形式として特殊文字を使用する 2D グリッド世界を設計しました。これら 3 つのタスクについて、さまざまなモデル (GPT-4、GPT-4V) とプロンプト手法を比較しました。研究結果によると、

VoT プロンプトは一貫して LLM に推論ステップを視覚化し、後続のステップをガイドするよう促します。したがって、この方法では、対応するタスクのパフォーマンスが大幅に向上します。

図 2: さまざまな設定でのナビゲーション マップの例。家の絵文字が出発地を表し、オフィスの絵文字が目的地を表しています。

空間的推論

空間的推論とは、オブジェクト間の空間的関係、その動き、相互作用を理解し推論する能力を指します。このスキルは、ナビゲーション、ロボット工学、自動運転など、現実世界の幅広いアプリケーションにとって重要です。これらの領域では、視覚認識と空間次元の詳細な理解に基づいた行動計画が必要です。テキストに埋め込まれた空間意味論を調査するためにいくつかのタスクとデータセットが開発されていますが、研究努力は一般に、空間用語が言語的にどのように構造化されているかに焦点を当てています。最近、空間用語を論理形式に変換し、論理プログラミングを採用することによって、これらのベンチマークで重要な成果と印象的な結果が達成されました。これは、これらのタスクをうまく実行しても、必ずしも大規模言語モデル (LLM) が空間情報を真に理解していることを意味するわけではなく、空間認識の正確な尺度を提供するわけでもないことを意味します。空間認識には、空間関係、方向、距離、幾何学を理解することが含まれます。これらは、物理世界での行動を計画するために不可欠です。 LLM の空間認識能力と空間推論能力を評価するために、研究者らは、自然言語ナビゲーション、視覚ナビゲーション、視覚舗装など、ナビゲーションと幾何学的推論のスキルをテストするいくつかのタスクを選択しました。

自然言語ナビゲーション

自然言語ナビゲーションには、以前に訪問した場所を特定することを目的として、ランダム ウォークを通じて基礎となる空間構造を参照することが含まれます。このコンセプトは、グラフ構造に沿ったランダム ウォークに似たアプローチを使用した、人間の認知に関する以前の研究からインスピレーションを得ています。このプロセスでは、空間ナビゲーションにとって重要なループ クロージャーを理解する必要があります。

大規模言語モデルの空間推論能力を刺激する: 思考の視覚化のヒント

ビジュアル ナビゲーション

ビジュアル ナビゲーション タスクでは、LLM に合成 2D グリッドの世界を提示し、視覚的な手がかりのナビゲートを活用するように要求します。モデルは、障害物を回避しながら開始点から目的地まで 4 方向 (左、右、上、下) に移動するためのナビゲーション命令を生成する必要があります。これには、ルート計画と次のステップの予測という 2 つのサブタスクが含まれます。これらにはマルチホップの空間推論が必要ですが、前者の方がより複雑です。

大規模言語モデルの空間推論能力を刺激する: 思考の視覚化のヒント

ビジュアル タイル化

ビジュアル タイル化は、古典的な空間推論の課題です。この概念を拡張して、限られた領域内の形状を理解し、整理し、推論する LLM の能力をテストすると、空間推論スキルの評価が強化されます。このタスクには、塗りつぶされていないセルを含む長方形と、4 つの整列した正方形で構成される I-ドミノ ブロックなどのさまざまなドミノ ブロックが含まれます。モデルは、質疑応答パズルを解くために、I-domino ブロックの方向を選択するなど、適切なドミノ ブロックのバリエーションを選択する必要があります。

大規模言語モデルの空間推論能力を刺激する: 思考の視覚化のヒント

大規模言語モデルの空間推論能力を刺激する: 思考の視覚化のヒント# 図 3: マスクされたドミノ ブロックを使用した視覚的な配置の例。この画像には、ドミノ ブロックの回転およびミラー化されたバリエーションは示されていません。

思考視覚的なヒント

人間がナビゲーションなどのタスクで空間情報を処理する方法を考えると、地図などの心的イメージは空間を強化するために作成されることがよくあります。意思決定を導くための認識またはシミュレートされた動き。研究の目標は、LLM の空間認識を喚起し、中間推論ステップを視覚化することで実際の状況に基づいた推論を可能にすることです。

研究者は、「思考の視覚化 (VoT)」というプロンプトを導入しました。「各推論ステップ後の状態を視覚化します。」この新しい空間推論パラダイムは、推論記号と視覚化結果を交互に生成することを目的としています。

大規模言語モデルの空間推論能力を刺激する: 思考の視覚化のヒント

大規模言語モデルの空間推論能力を刺激する: 思考の視覚化のヒント 図 4: LLM が交互に追跡する推論記号と視覚化を生成する 3 つのタスクにおける VoT プロンプトの例時間の経過とともに変化する状態。

大規模言語モデルの空間推論能力を刺激する: 思考の視覚化のヒント論文: https://arxiv.org/pdf/2404.03622.pdf

以上が大規模言語モデルの空間推論能力を刺激する: 思考の視覚化のヒントの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Groq Llama 3 70B をローカルで使用するためのステップバイステップ ガイド Groq Llama 3 70B をローカルで使用するためのステップバイステップ ガイド Jun 10, 2024 am 09:16 AM

翻訳者 | Bugatti レビュー | Chonglou この記事では、GroqLPU 推論エンジンを使用して JanAI と VSCode で超高速応答を生成する方法について説明します。 Groq は AI のインフラストラクチャ側に焦点を当てているなど、誰もがより優れた大規模言語モデル (LLM) の構築に取り組んでいます。これらの大型モデルがより迅速に応答するためには、これらの大型モデルからの迅速な応答が鍵となります。このチュートリアルでは、GroqLPU 解析エンジンと、API と JanAI を使用してラップトップ上でローカルにアクセスする方法を紹介します。この記事では、これを VSCode に統合して、コードの生成、コードのリファクタリング、ドキュメントの入力、テスト ユニットの生成を支援します。この記事では、独自の人工知能プログラミングアシスタントを無料で作成します。 GroqLPU 推論エンジン Groq の概要

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

宇宙探査と人類居住工学における人工知能の進化 宇宙探査と人類居住工学における人工知能の進化 Apr 29, 2024 pm 03:25 PM

1950 年代に人工知能 (AI) が誕生しました。そのとき、研究者たちは、機械が思考などの人間と同じようなタスクを実行できることを発見しました。その後、1960 年代に米国国防総省は人工知能に資金を提供し、さらなる開発のために研究所を設立しました。研究者たちは、宇宙探査や極限環境での生存など、多くの分野で人工知能の応用を見出しています。宇宙探査は、地球を超えた宇宙全体を対象とする宇宙の研究です。宇宙は地球とは条件が異なるため、極限環境に分類されます。宇宙で生き残るためには、多くの要素を考慮し、予防策を講じる必要があります。科学者や研究者は、宇宙を探索し、あらゆるものの現状を理解することが、宇宙の仕組みを理解し、潜在的な環境危機に備えるのに役立つと信じています。

GenAI および LLM の技術面接に関する 7 つのクールな質問 GenAI および LLM の技術面接に関する 7 つのクールな質問 Jun 07, 2024 am 10:06 AM

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。

大規模モデルは時系列予測にも非常に強力です。中国チームがLLMの新機能を有効にし、従来のモデルを超えたSOTAを達成 大規模モデルは時系列予測にも非常に強力です。中国チームがLLMの新機能を有効にし、従来のモデルを超えたSOTAを達成 Apr 11, 2024 am 09:43 AM

大規模な言語モデルの可能性が刺激され、大規模な言語モデルをトレーニングすることなく高精度の時系列予測を達成でき、従来のすべての時系列モデルを上回ります。モナシュ大学、Ant、IBM Research は共同で、モダリティ全体で配列データを処理する大規模言語モデルの機能を促進する一般的なフレームワークを開発しました。このフレームワークは重要な技術革新となっています。時系列予測は、都市、エネルギー、交通、リモート センシングなどの典型的な複雑なシステムにおける意思決定に役立ちます。それ以来、大規模モデルは時系列/時空間データ マイニングに革命をもたらすと期待されています。一般大規模言語モデル再プログラミング フレームワーク研究チームは、トレーニングなしで一般的な時系列予測に大規模言語モデルを簡単に使用するための一般的なフレームワークを提案しました。主に 2 つの主要なテクノロジが提案されています: タイミング入力再プログラミング、プロンプト プレフィックス。時間-

OpenHarmony で大規模な言語モデルをローカルにデプロイする OpenHarmony で大規模な言語モデルをローカルにデプロイする Jun 07, 2024 am 10:02 AM

この記事は、第 2 回 OpenHarmony テクノロジー カンファレンスで実証された「OpenHarmony での大規模言語モデルのローカル デプロイメント」の結果をオープンソース化します。オープンソースのアドレス: https://gitee.com/openharmony-sig/tpc_c_cplusplus/blob/master/thirdparty。 /InferLLM/docs/hap_integrate.md。実装のアイデアと手順は、軽量 LLM モデル推論フレームワーク InferLLM を OpenHarmony 標準システムに移植し、OpenHarmony 上で実行できるバイナリ製品をコンパイルすることです。 InferLLM はシンプルで効率的な L

未来を形作る 10 台の人型ロボット 未来を形作る 10 台の人型ロボット Mar 22, 2024 pm 08:51 PM

以下の 10 種類の人型ロボットが私たちの未来を形作ります。 1. ASIMO: ホンダが開発した ASIMO は、最もよく知られている人型ロボットの 1 つです。身長 4 フィート、体重 119 ポンドの ASIMO には、高度なセンサーと人工知能機能が装備されており、複雑な環境をナビゲートし、人間と対話することができます。 ASIMO は多用途性を備えているため、障害を持つ人々の支援からイベントでのプレゼンテーションまで、さまざまなタスクに適しています。 2. Pepper: ソフトバンクロボティクスによって作成された Pepper は、人間の社会的パートナーになることを目指しています。表情豊かな顔と感情を認識する能力を備えた Pepper は、会話に参加したり、小売現場で手助けしたり、教育サポートを提供したりすることもできます。コショウ

業界のデジタルアップグレードを促進するQianjiang Robotは、インテリジェントな製造エコシステムを構築します 業界のデジタルアップグレードを促進するQianjiang Robotは、インテリジェントな製造エコシステムを構築します Sep 24, 2023 am 10:13 AM

オートメーション、インテリジェンス、デジタル インテリジェンスは、従来の製造業の発展の方向性です。ロボットは、自動化された生産ライン、インテリジェントな物流、人間と機械のコラボレーション、カスタマイズされた生産のための主要な機器の 1 つとして、従来の製造からインテリジェントな製造への変化において重要な役割を果たしています。 Aistar Qianjiang Robotは、産業用ロボットのコアコンポーネント、完全なロボット、産業用ソフトウェア、インテリジェント製造システム統合の4つの主要な事業セグメントをカバーしており、9月19日から23日まで開催される第23回中国国際産業博覧会で、Aistar Qianjiang Robot Jiang Robotと提携します。多くの関連会社が産業オートメーション、産業用ロボット、インテリジェント製造に注力し、ハイエンドでインテリジェントな無人産業用の完全なソリューションをユーザーに提供します。 ASD株式会社会長兼浙江銭江ロボット有限公司取締役のチェン・ヘリン氏は次のように述べています。

See all articles