視覚強化微調整! DeepSeek R1テクノロジーはマルチモーダルフィールドに正常に移行されており、ソースに完全に開放されています
大きな推奨事項:Visual-RFT-Visual Language Modelsを強化するための視覚的強化と微調整オープンソースプロジェクト!
AIXIVコラムは、世界のトップAI研究に焦点を当て続けており、2,000を超える学術および技術記事を発表しています。あなたの傑出した成果を共有するための貢献へようこそ!提出メール:liyazhou@jiqizhixin.com;
Visual-RFT(Visual Renforcement微調整)プロジェクトは、視覚言語の大きなモデル(LVLM)に対するルールの報酬に基づいて、補強学習と強化微調整(RFT)パラダイムを正常に適用し、テキスト、数学、その他の分野に限定されている以前の方法の制限を突破します。 Visual-RFTは、視覚的なサブカテゴリ化やオブジェクト検出などのタスクの特定のルール報酬を設計することにより、LVLMトレーニングの新しいアイデアを提供します!
図1は、Visual-RFTの強力な一般化能力を示しています。モデルでは、視覚強化微調整! DeepSeek R1テクノロジーはマルチモーダルフィールドに正常に移行されており、ソースに完全に開放されています内の特定のポケモンを正確に識別し、その座標を見つけるために、少量のデータのみが必要です。
図1。Visual-RFTは、モデルのパフォーマンスを大幅に改善するために、10〜1000個のデータのみで、微調整された微調整をマルチモーダルに拡張します。
RFTからVisual-RFTへ:マルチモーダル分野での補強学習のブレークスルー
OpenAIの強化された微調整技術により、モデルの機能移行は、少数のサンプルだけで達成できます。 DeepSeek-R1は、その強力な推論能力が検証可能な報酬に基づいた強化学習戦略に起因することを明らかにしています。ただし、この戦略は、以前は主にテキストや数学などの分野で使用されていました。 Visual-RFTは、この戦略を視野に拡張しました。検証可能なルールの報酬を構築することにより、視野での従来の方法の制限を解決し、効率的で高度に一般化された視覚的理解と推論を達成しました。
従来の視覚命令微調整(SFT)には大量のデータが必要であり、Visual-RFTの小さなサンプル学習能力により、データ不足シナリオではより有利になります。
Visual-RFTの一般化能力を検証するために、研究チームは、オブジェクトの検出、分類、接地などの複数の視覚タスクのテストを実施しました。結果は、Visual-RFTがオープンな語彙、小規模なサンプル学習、その他の設定の下で大幅なパフォーマンスの改善を達成できることを示しており、SFTメソッドよりも優れています。特に推論の位置決めタスクでは、Visual-RFTは優れた視覚的推論能力を示しています。 (詳細については、論文を参照してください)
図2。視覚RFTは、複数の視覚タスクでSFTを大幅に上回ります。
図3。Visual-RFTフレームワーク図、IOUおよびCLSの報酬と強化学習戦略を使用したモデルパラメーターの更新。
研究チームは、検出および接地タスクのためにIOUベースの検証可能な報酬を使用し、分類タスクの分類正しさに基づいてCLSの報酬を使用しました。 (図3に示すように)
図4。推論的な位置決めの結果は、視覚RFTがSFTを上回ってオブジェクトをより正確に見つけることを示しています。
図5。推論的な細粒分類の結果は、視覚RFTがSFTを上回ってオブジェクトをより正確に見つけることを示しています。
図4と図5は、モデルの出力結果を示しています。
Visual-RFT実験結果
QWEN2-VL 2B/7Bモデルに基づいて、Visual-RFTは、オープンオブジェクト検出、小さなサンプル検出、細粒分類、および推論配置タスクでSFTを包括的に上回ります。実験データは、ココやLVIなどの一般的なシーンや、インターネット漫画のキャラクターなどのオープンシーンをカバーしています。わずかなデータを使用すると、Visual-RFTは機能の移行を実現し、優れたパフォーマンスと堅牢性を示します。
図5。いくつかの実験結果は、視覚RFTがSFTを大幅に上回ることを示しています。
Visual-RFTはオープンソースです!
Visual-RFTプロジェクトはオープンソースであり、トレーニング、評価コード、データが含まれています。参加してください!
プロジェクトアドレス: https://www.php.cn/link/ec56522bc9c2e15be17d11962eeec453
以上が視覚強化微調整! DeepSeek R1テクノロジーはマルチモーダルフィールドに正常に移行されており、ソースに完全に開放されていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









gitリポジトリを削除するには、次の手順に従ってください。削除するリポジトリを確認します。リポジトリのローカル削除:RM -RFコマンドを使用して、フォルダーを削除します。倉庫をリモートで削除する:倉庫の設定に移動し、「倉庫の削除」オプションを見つけて、操作を確認します。

GITサーバーをパブリックネットワークに接続するには、5つのステップが含まれます。1。パブリックIPアドレスのセットアップ。 2。ファイアウォールポート(22、9418、80/443)を開きます。 3。SSHアクセスを構成します(キーペアを生成し、ユーザーを作成します)。 4。http/httpsアクセスを構成します(サーバーをインストールし、許可を構成); 5.接続をテストします(SSHクライアントまたはGITコマンドを使用)。

コード競合とは、複数の開発者が同じコードを変更し、GITが変更を自動的に選択せずにマージすると発生する競合を指します。解決手順には、競合するファイルを開き、競合するコードを見つけます。コードを手動でマージし、競合マーカーに保持する変更をコピーします。競合マークを削除します。変更を保存して送信します。

リモートGitサーバーに安全に接続するには、パブリックキーとプライベートキーの両方を含むSSHキーを生成する必要があります。 SSHキーを生成する手順は次のとおりです。端子を開き、ssh -keygen -t rsa -b 4096を入力します。キー保存場所を選択します。秘密鍵を保護するには、パスワード句を入力します。公開キーをリモートサーバーにコピーします。アカウントにアクセスするための資格情報であるため、秘密鍵を適切に保存します。

GITを介してSSHを検出するには、次の手順を実行する必要があります。SSHキーペアを生成します。 Gitサーバーに公開キーを追加します。 sshを使用するようにgitを構成します。 SSH接続をテストします。実際の条件に応じて可能な問題を解決します。

Gitアカウントに公開キーを追加する方法は?ステップ:SSHキーペアを生成します。公開キーをコピーします。 gitlabまたはgithubに公開キーを追加します。 SSH接続をテストします。

GITを使用してプロジェクトを作成するには、次の手順が必要です。1。gitの公式Webサイトをインストールして、対応するバージョンのgitをダウンロードしてインストールします。 2。プロジェクトを初期化して、Git initを使用してリポジトリを作成します。 3.ファイルを追加して、Git Addを使用してファイルを一時ストレージエリアに追加します。 4.変更を送信してコミットし、指示を追加します。 5.変更をプッシュして、gitプッシュでそれらをプッシュします。 6. git pullを使用するためのプルの変更は、Git Pullを使用してリモートリポジトリから最新の変更を取得します。

GITを使用してコードを個別に送信して、詳細な変更追跡と独立した作業能力を提供します。手順は次のとおりです。1。変更されたファイルを追加します。 2。特定の変更を送信します。 3.上記の手順を繰り返します。 4.リモートリポジトリへの提出をプッシュします。
