ホームページ > テクノロジー周辺機器 > AI > 実践的な実験を使用したディープダイブモルモとPIXMO

実践的な実験を使用したディープダイブモルモとPIXMO

Lisa Kudrow
リリース: 2025-03-19 09:41:11
オリジナル
416 人が閲覧しました

Molmo:高品質のオープンデータセットに基づいて構築されたオープンビジョン言語モデル

独自の大規模な視覚言語モデル(VLM)の優位性は、オープンな研究を妨げます。オープンソースの代替品は、多くの場合、独自のモデルによって生成された合成データに依存し、真の開放性を制限します。洗練されたVLMであるMolmoは、オープンデータセットと独立したトレーニング方法論でのみ訓練された高品質のマルチモーダル機能を活用することにより、これに対処します。

付随するPIXMOデータセットは、Molmoの成功に不可欠です。人間の音声注釈を使用して詳細な画像キャプションペアを作成することにより、データアクセシビリティの制限を克服します。このアプローチは、合成データセットに固有の制限を回避し、豊富で高密度のキャプションを生成します。

Molmoのアーキテクチャは、標準的なマルチモーダルデザインです。言語モデルと組み合わせたビジョンエンコーダーです。

実践的な実験を使用したディープダイブモルモとPIXMO

主な機能:

  • PIXMOデータセット: Molmoのパフォーマンスの基礎。
  • 建築:
    • 画像プレプロセッサ:マルチスケールのマルチクラップ画像セクションを生成します。
    • Vision Encoder: OpenaiのVIT-L/14 336PXクリップモデル(優れたマルチクラップ処理のためにSiglipよりも選択)。
    • コネクタ: MLPベースの投影は、画像の埋め込みを言語モデルの寸法に合わせます。
    • デコーダーのみのトランスLLM:さまざまなLLM(Olmo、Olmoe、QWen2、Mistral)で柔軟性を提供します。
  • トレーニング: 2段階のプロセス:
    • マルチモーダルプリトレーニング: PIXMO-CAPを使用したキャプション生成に焦点を当てています。単一段階のアプローチは、マルチステージ法の複雑さを回避します。
    • 監視された微調整:多様なタスクとデータセット(pixmo-as​​kmodelanything、pixmo-pointsなど)を利用します。高品質のデータに依存して、RLHFの必要性を排除します。
  • 評価: 11のベンチマークデータセットと人間の好みの研究にわたる厳密なテスト。結果は、Molmoが独自のモデルと競争力があり、時にはそれを超えることを示しています。

データセットの詳細:

  • PIXMO-CAP: 60〜90秒の音声説明から詳細なキャプションを備えた712Kを超える画像。
  • pixmo-as​​kmodelanything:画像ベースの質問回答ペア。
  • Pixmo-Points:空間理解のためのポイントベースの注釈。
  • その他のデータセット: pixmo-crocks、pixmo-docs、pixmo-capqa。

実践的な実験を使用したディープダイブモルモとPIXMO

建築のディープダイブ:

実践的な実験を使用したディープダイブモルモとPIXMO

マルチスケールのマルチクラップ画像処理により、モデルの画像コンテキストの理解が向上します。 Siglipを介したクリップの選択は、高解像度のマルチクラップデータの優れた性能によって正当化されます。 MLPコネクタとプーリング層は、次元を効率的に管理し、ビジョンコンポーネントと言語コンポーネント間の効果的なコミュニケーションを確保します。デコーダーのみのトランスLLMは、適応可能なモデルサイズとパフォーマンスを可能にします。

実践的な実験を使用したディープダイブモルモとPIXMO

高品質のデータに燃料を供給された単一ステージの事前トレーニングは、効率的かつ効果的であることが証明されています。その後の多様なタスクに関する監視された微調整は、モデルの機能をさらに洗練します。 RLHFの欠如は、PIXMOデータセットの豊かさを活用する意図的な選択です。

ベンチマークの比較は、Llava、QWEN2-VL、Paligemmaを含む他のVLMに対するMolmoのパフォーマンスを強調し、競争力を示しています。人間の好みテストは、ユーザーフレンドリーをさらに検証します。

実践的な実験を使用したディープダイブモルモとPIXMO

実践的な例(省略):

Colab Notebookを使用したコード例を含む詳細な実践ガイドは、モデルをロードし、画像を処理し、出力を生成する方法を示しています。この例は、Molmoの適応性を紹介し、画像から構造化された情報を抽出する方法を示しています。パッチに分割して、大規模で複雑な画像を処理するための手法も検討されています。

実践的な実験を使用したディープダイブモルモとPIXMO実践的な実験を使用したディープダイブモルモとPIXMO

結論:

Molmoは、オープンソースVLMの大きな進歩を表しています。高品質のオープンデータセット、効率的なトレーニング、柔軟なアーキテクチャへのコミットメントは、幅広いビジョン言語タスクの強力で多用途のツールとして位置づけています。詳細な説明と実践的な例は、その能力の包括的な理解を提供します。

よくある質問(省略):

  • Clip vs. Siglip: Clipのマルチクリップの高解像度画像の優れた処理が、その選択の主な理由です。
  • データセットの利点: PIXMOのヒトではないデータは、合成データセットと比較して、より豊かで自然な視覚的理解を提供します。
  • カスタマイズ: Molmoの柔軟性により、カスタマイズされたプロンプトを介してさまざまなタスクと入力タイプへの適応が可能になります。

以上が実践的な実験を使用したディープダイブモルモとPIXMOの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート