目次
人間の視覚システムは視野内のオブジェクトの詳細を自然に認識できますが、ベンチマークは現在、LMM のテストに使用されています。この分野の能力の評価には特に重点が置かれていません。
ホームページ テクノロジー周辺機器 AI 南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。

南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。

Nov 27, 2023 pm 02:49 PM
データ 電車

「清明節の川沿い」に登場するラクダの数を知りたいですか? UHD入力に対応したマルチモーダルモデルを見てみましょう。

最近、南洋工科大学の中国チームは、Fuyu-8B に基づいて 80 億パラメータのマルチモーダル大型モデル OtterHD を構築しました。

南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。

論文アドレス: https://arxiv.org/abs/2311.04219

制限付きOtterHD-8B は、固定サイズのビジュアル エンコーダの従来のモデルとは異なり、柔軟な入力サイズを処理する機能を備えており、さまざまな推論ニーズの下での汎用性を確保しています。

同時に、チームは新しいベンチマーク テスト MagnifierBench も提案しました。これは、大きなサイズの画像内のオブジェクトの細部と空間的関係を識別する LLM の能力を慎重に評価できます。

#実験結果は、高解像度入力を直接処理する場合、OtterHD-8B のパフォーマンスが同様のモデルよりも大幅に優れていることを示しています

南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。

##エフェクト デモンストレーション

以下に示すように、清明川のシーン (部分) に何頭のラクダがいるかを尋ねます。画像入力は 2446x1766 ピクセルに達し、モデルは次のことができます。質問にも無事答えられます。

南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。#GPT4-V がかつて混乱させたリンゴの数を数える問題に直面しましたが、モデルはリンゴが 11 個含まれていると計算することに成功しました

南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。

##論文に示されている高解像度入力の例に加えて、いくつかのテストも実施しました。モデルはユーザーがケンブリッジ大学の博士号を取得していると仮定して、この図が何を意味するかを説明します。


モデルの回答は、写真内のブラック ホールとホワイト ホールの情報を正確に識別し、それがトンネル状の構造であることを識別し、詳細な説明を与えました。

下の図では、モデルはエネルギーシェアに関する状況を説明するよう求められています。このモデルは、図に示されているいくつかのエネルギー タイプを識別し、時間の経過に伴うそれらの割合を正確に示します。

南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。

図は、電球を交換するフローチャートに関するものです。 . モデルはフローチャートの意味を正確に理解し、段階的に詳細なガイダンスを提供します。

南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。

80億パラメータコマンド微調整OtterHD-8B南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。

Fuyu-8BのOtterHD-8Bは最初のオープンソースの命令で、最大 1024×1024 の入力でトレーニングされた大規模な言語モデルを微調整することができます。これは注目に値します。

さらに、推論中に、さらに大きな解像度まで拡張できます。 (1440×1440など)。

トレーニングの詳細

予備実験で、チームはふゆが得意とすることを発見しました。ベンチマークは特定の命令に応答する際のパフォーマンスが低く、その結果、MME および MMBench でのモデルのパフォーマンスが非常に弱くなりました。

これらの問題に対処するために、チームは、以下に基づいて命令の微調整を実行しました。 370K 混合データは Fuyu モデルを調整し、LLaVA-1.5 の同様の命令テンプレートを参照してモデルの回答形式を標準化します

トレーニング段階では、すべてのデータセットが命令に編成されます。回答 はい。統合されたデータローダーに要約され、代表的な整合性を確保するために均一にサンプリングされます。

モデリング コードのパフォーマンスを向上させるために、チームは、Fuyu の助けを借りて、FlashAttendant リソース ライブラリにある FlashAttendant-2 とオペレーター フュージョン テクノロジを採用しました。図 2 に示すように、簡素化されたアーキテクチャでは、これらの変更により GPU の使用率とスループットが大幅に向上しました

# 具体的には、チームによって提案された方法は、フル パラメータを使用できます。トレーニングは、8×A100 GPU ではエポックあたり 3 時間で完了しますが、LoRA 微調整後はエポックあたり 1 時間しかかかりません。 南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。

AdamW オプティマイザーを使用してモデルをトレーニングする場合、バッチ サイズは 64、学習率は 1×10^-5、重み減衰は 0.1 に設定されます。

超精密評価ベンチマーク MagnifierBench

人間の視覚システムは視野内のオブジェクトの詳細を自然に認識できますが、ベンチマークは現在、LMM のテストに使用されています。この分野の能力の評価には特に重点が置かれていません。

Fuyu モデルと OtterHD モデルの登場により、入力画像の解像度を初めてより広い範囲に拡張しました。

この目的を達成するために、チームは、パノプティック シーン グラフ生成 (PVSG) データ セットに基づいて、166 枚の画像と合計 283 セットの質問をカバーする新しいテスト ベンチマーク MagnifierBench を作成しました。

PVSG データセットはビデオ データで構成されており、これには大量の乱雑で複雑なシーン、特に一人称の家事ビデオが含まれています。

アノテーションの段階で、チームはデータセット内のすべての質問と回答のペアを注意深く調べ、大きなオブジェクトに関係するものや、常識的な知識で簡単に答えられるものを除外しました。たとえば、ほとんどのリモコンは黒なので推測しやすいですが、赤や黄色などの色はこのリストには含まれていません。

図 3 に示すように、MagnifierBench によって設計された質問の種類には、認識、数字、色関連の質問などが含まれます。このデータセットの重要な基準は、質問が十分に複雑であるため、アノテーターでも正確に回答するには全画面モードにするか、画像をズームインする必要があることです。

短い回答と比較して、LMM は会話環境で詳細な回答を生成することに優れています。 南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。

#-複数選択の質問

このモデルが直面する問題は、選択できる選択肢が複数あることです。モデルが答えとして文字 (A、B、C など) を選択できるようにするために、チームは質問の前にプロンプ​​トとして特定の選択肢からの文字を挿入しました。この場合、正しい選択肢と完全に一致する回答のみが正しい回答とみなされます

##- 公開質問

ランダムな推測は正しい確率が 25% であるため、複数のオプションを使用するとタスクが簡素化されます。さらに、ユーザーは通常モデルに事前定義されたオプションを提供しないため、これはチャット アシスタントが直面する現実のシナリオを反映していません。この潜在的なバイアスを排除するために、チームはまた、プロンプトの選択肢を設けずに、単純かつ自由形式でモデルに質問をしました。

実験分析

研究結果は、多くのモデルが MME や POPE などの確立されたベンチマークで高いスコアを達成しているにもかかわらず、パフォーマンスを発揮できないことを示しています。 MagnifierBench ではパフォーマンスが満足できないことがよくあります。一方、OtterHD-8B は MagnifierBench で良好なパフォーマンスを示しました。

解像度を上げる効果をさらに調査し、さまざまな、おそらくより高い解像度で OtterHD の汎化能力をテストするために、チームは固定解像度または動的解像度を使用して Otter8B で実験を実施しました。 x 軸は、解像度が増加するにつれて、より多くの画像トークンが言語デコーダーに送信され、より多くの画像の詳細が提供されることを示しています。

#実験結果は、解像度が増加すると、それに応じて MagnifierBench のパフォーマンスも向上することを示しています。

# #As解像度が上がると、画像とテキストの比率が徐々に増加します。これは、テキスト トークンの平均数が同じままであるためです。この変更により、特に複雑な視覚的な関連付けが必要なタスクでは、LMM 解決の重要性が強調されます。

南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。

さらに、固定トレーニング方法と動的トレーニング方法のパフォーマンスの違いは、特に特定の解像度でのオーバーフィッティングの防止において、動的サイズ変更の利点を強調しています。

#動的戦略には、トレーニング中に表示されなかった場合でも、モデルをより高い解像度 (1440) に適応できるという利点もあります

いくつかの比較

南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。

南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。

南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。

南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。

結論

Fuyu-8B の革新的なアーキテクチャに基づいて、研究チームは OtterHD-8B を提案しました。このモデルでは、さまざまな解像度の画像を効果的に処理でき、ほとんどの LMM での固定解像度入力の制限を取り除くことができます。

同時に、OtterHD-8B は高解像度の画像処理に非常に優れています。優れたパフォーマンス

これは、新しい MagnifierBench ベンチマークで特に顕著になります。このベンチマークの目的は、複雑なシーンの詳細を認識する LMM の能力を評価し、さまざまな解像度に対するより柔軟なサポートの重要性を強調することです。

以上が南洋工科大学の中国チームは、80 億パラメータの OtterHD を通じて、「清明節の川沿い」でラクダを数える体験をお届けします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ddrescue を使用して Linux 上のデータを回復する ddrescue を使用して Linux 上のデータを回復する Mar 20, 2024 pm 01:37 PM

DDREASE は、ハード ドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージ デバイスなどのファイル デバイスまたはブロック デバイスからデータを回復するためのツールです。あるブロック デバイスから別のブロック デバイスにデータをコピーし、破損したデータ ブロックを残して正常なデータ ブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップ ファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。 リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

オープンソース!ゾーイデプスを超えて! DepthFM: 高速かつ正確な単眼深度推定! オープンソース!ゾーイデプスを超えて! DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

iPhoneのセルラーデータインターネット速度が遅い:修正 iPhoneのセルラーデータインターネット速度が遅い:修正 May 03, 2024 pm 09:01 PM

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

Kuaishou バージョンの Sora「Ke Ling」がテスト用に公開されています。120 秒以上のビデオを生成し、物理学をより深く理解し、複雑な動きを正確にモデル化できます。 Kuaishou バージョンの Sora「Ke Ling」がテスト用に公開されています。120 秒以上のビデオを生成し、物理学をより深く理解し、複雑な動きを正確にモデル化できます。 Jun 11, 2024 am 09:51 AM

何?ズートピアは国産AIによって実現するのか?ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。

超知性の生命力が覚醒する!しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 超知性の生命力が覚醒する!しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

アメリカ空軍が初のAI戦闘機を公開し注目を集める!大臣はプロセス全体を通じて干渉することなく個人的にテストを実施し、10万行のコードが21回にわたってテストされました。 アメリカ空軍が初のAI戦闘機を公開し注目を集める!大臣はプロセス全体を通じて干渉することなく個人的にテストを実施し、10万行のコードが21回にわたってテストされました。 May 07, 2024 pm 05:00 PM

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機(VISTA)で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランク ケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、

See all articles