ホームページ > テクノロジー周辺機器 > AI > Chitrarth-1:Krutrim AI Labsによる多言語VLM

Chitrarth-1:Krutrim AI Labsによる多言語VLM

Joseph Gordon-Levitt
リリース: 2025-03-03 18:22:13
オリジナル
930 人が閲覧しました

インドのAIの風景は急速に進化しており、大幅な進歩と革新が出現しています。 OLAグループ会社であるKrutrim AI Labsは、この成長の重要なプレーヤーであり、最近、画期的なビジョン言語モデル(VLM)であるChitrarth-1を発表しました。 インドの多様な言語的および文化的文脈のために設計されたChitrarth-1は、インドの10の主要な言語と英語をサポートしており、多言語AIソリューションの重要なニーズに対応しています。この記事では、チトラルス-1とインドの拡大するAI機能への影響を掘り下げています。

目次

    chitrarth-1とは?
  • chitrarth-1アーキテクチャと仕様
  • トレーニングデータと方法論
    • フェーズ1:アダプター事前トレーニング
    • フェーズ2:命令チューニング
  • パフォーマンスとベンチマーク
  • chitrarth-1
  • へのアクセス アクション中のChitrarth-1
  • 結論
chitrarth-1とは?

Chitrarth-1(「Chitra」 - 画像と「Artha」 - 意味を組み合わせて)は、高度な言語とビジョン処理を統合する75億パラメーターVLMです。 インドの多様な言語的ニーズに応えるために建てられ、ヒンディー語、ベンガル語、テルグ語、タミル語、マラーティー語、グジャラート語、カンナダ語、マラヤーラム語、オディア、アッサム語、英語をサポートしています。 このモデルは、「私たちの国、私たちの国、そして私たちの市民のためにAIを発展させることへのクルトリムのコミットメントを具体化しています。 リッチで多言語のデータセットを使用すると、バイアスが最小限に抑えられ、インド言語と英語で堅牢なパフォーマンスが保証され、公平なAIアクセスが促進されます。 Chitrarth-1に関する研究は、ニューリップや機械翻訳に関する第9回会議を含む大手アカデミックジャーナルに掲載されています。

chitrarth-1アーキテクチャと仕様

Chitrarth-1は、Siglip(Siglip-So400M-Patch14-384)モデルに基づいてビジョンエンコーダーによって強化された、その基礎としてKrutrim-7B LLMを利用します。 主要なアーキテクチャコンポーネントには次のものが含まれます 画像機能抽出のための事前に訓練されたSiglip Visionエンコーダー。

LLMのトークンスペースに画像機能を投影するためのトレーニング可能な線形マッピングレイヤー。

マルチモーダルパフォーマンスを改善するための命令に従う画像テキストデータセットを使用した微調整。
  • トレーニングデータと方法論
  • Chitrarth-1のトレーニングには、広大な多言語データセットを使用して2つのフェーズが含まれていました。

フェーズ1:アダプター事前トレーニング

    オープンソースモデルを使用して複数のインド言語に翻訳された多様なデータセットで事前に訓練されています。
  • 英語とインド語のバランスの取れた表現を維持して、公平なパフォーマンスを確保しました。
  • 単一の言語に対するバイアスを避けるように設計され、効率と堅牢性のために最適化。
  • フェーズ2:命令チューニング

複雑な命令データセットで微調整して、マルチモーダル推論機能を強化します。 英語ベースの命令調整データセットとその多言語翻訳を使用しました

多様なインドの画像(性格、記念碑、アートワーク、料理)を特徴とするビジョン言語データセットが含まれています。
    バランスの取れたドメイン表現のための高品質の独自の英語テキストデータを組み込んだ。
  • パフォーマンスとベンチマーク
Chitrarth-1は、IDEFICS 2(7B)やPalo 7Bなどの主要なVLMに対して厳密にテストされており、TextVQAやVizWizなどのタスクで競争力を維持しながら、さまざまなベンチマークで一貫してそれらを上回ります。また、主要なメトリックでLlama 3.2 11bビジョン指示を上回ります。 Krutrimは、3つのタスクにわたる10のリソース不足のインド言語の新しい評価スイートであるBharatbenchを導入し、将来の研究のためのベースラインを確立し、これらの言語を効果的に処理するChitrarth-1の能力を強調しました。 サンプルのbharatbenchの結果を以下に示します:

詳細については、ここをクリックしてください。

chitrarth-1

へのアクセス

Chitrarth-1は介してアクセス可能です

  • 顔の抱き合った顔:直接使用または微調整。 (ここをクリックしてアクセスしてください)
  • github:(元の記事で提供されているコード)
  • krutrimクラウド:(探索するにはここをクリックしてください)

Chitrarth-1: A Multilingual VLM by Krutrim AI Labs

chitrarth-1 in Action Chitrarth-1の機能の例には、画像分析、画像キャプションの生成、UI/UX画面分析(元の記事で提供されている画像)が含まれます。

Chitrarth-1: A Multilingual VLM by Krutrim AI LabsChitrarth-1: A Multilingual VLM by Krutrim AI Labs結論Chitrarth-1: A Multilingual VLM by Krutrim AI Labs

OLAグループの一部門であるKrutrim AI Labsは、AIコンピューティングの将来の構築に取り組んでいます。 Chitrarth-1、およびGPUのようなサービス、AIスタジオなどの他の製品は、包括的で文化的に敏感なAIの新しい基準を確立し、より公平な技術環境を促進しています。

以上がChitrarth-1:Krutrim AI Labsによる多言語VLMの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート