Chitrarth-1:Krutrim AI Labsによる多言語VLM
インドのAIの風景は急速に進化しており、大幅な進歩と革新が出現しています。 OLAグループ会社であるKrutrim AI Labsは、この成長の重要なプレーヤーであり、最近、画期的なビジョン言語モデル(VLM)であるChitrarth-1を発表しました。 インドの多様な言語的および文化的文脈のために設計されたChitrarth-1は、インドの10の主要な言語と英語をサポートしており、多言語AIソリューションの重要なニーズに対応しています。この記事では、チトラルス-1とインドの拡大するAI機能への影響を掘り下げています。
目次
- chitrarth-1とは?
- chitrarth-1アーキテクチャと仕様
- トレーニングデータと方法論
-
- フェーズ1:アダプター事前トレーニング
- フェーズ2:命令チューニング
パフォーマンスとベンチマーク - chitrarth-1
- へのアクセス アクション中のChitrarth-1
- 結論
Chitrarth-1(「Chitra」 - 画像と「Artha」 - 意味を組み合わせて)は、高度な言語とビジョン処理を統合する75億パラメーターVLMです。 インドの多様な言語的ニーズに応えるために建てられ、ヒンディー語、ベンガル語、テルグ語、タミル語、マラーティー語、グジャラート語、カンナダ語、マラヤーラム語、オディア、アッサム語、英語をサポートしています。 このモデルは、「私たちの国、私たちの国、そして私たちの市民のためにAIを発展させることへのクルトリムのコミットメントを具体化しています。 リッチで多言語のデータセットを使用すると、バイアスが最小限に抑えられ、インド言語と英語で堅牢なパフォーマンスが保証され、公平なAIアクセスが促進されます。 Chitrarth-1に関する研究は、ニューリップや機械翻訳に関する第9回会議を含む大手アカデミックジャーナルに掲載されています。
chitrarth-1アーキテクチャと仕様
Chitrarth-1は、Siglip(Siglip-So400M-Patch14-384)モデルに基づいてビジョンエンコーダーによって強化された、その基礎としてKrutrim-7B LLMを利用します。 主要なアーキテクチャコンポーネントには次のものが含まれます 画像機能抽出のための事前に訓練されたSiglip Visionエンコーダー。
LLMのトークンスペースに画像機能を投影するためのトレーニング可能な線形マッピングレイヤー。
マルチモーダルパフォーマンスを改善するための命令に従う画像テキストデータセットを使用した微調整。- トレーニングデータと方法論
- Chitrarth-1のトレーニングには、広大な多言語データセットを使用して2つのフェーズが含まれていました。
フェーズ1:アダプター事前トレーニング
-
オープンソースモデルを使用して複数のインド言語に翻訳された多様なデータセットで事前に訓練されています。
- 英語とインド語のバランスの取れた表現を維持して、公平なパフォーマンスを確保しました。 単一の言語に対するバイアスを避けるように設計され、効率と堅牢性のために最適化。
- フェーズ2:命令チューニング
複雑な命令データセットで微調整して、マルチモーダル推論機能を強化します。 英語ベースの命令調整データセットとその多言語翻訳を使用しました
多様なインドの画像(性格、記念碑、アートワーク、料理)を特徴とするビジョン言語データセットが含まれています。- バランスの取れたドメイン表現のための高品質の独自の英語テキストデータを組み込んだ。
- パフォーマンスとベンチマーク
詳細については、ここをクリックしてください。
chitrarth-1
へのアクセスChitrarth-1は介してアクセス可能です
- 顔の抱き合った顔:直接使用または微調整。 (ここをクリックしてアクセスしてください)
- github:(元の記事で提供されているコード)
- krutrimクラウド:(探索するにはここをクリックしてください)
chitrarth-1 in Action Chitrarth-1の機能の例には、画像分析、画像キャプションの生成、UI/UX画面分析(元の記事で提供されている画像)が含まれます。
結論
以上がChitrarth-1:Krutrim AI Labsによる多言語VLMの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

導入 Openaiは、待望の「Strawberry」アーキテクチャに基づいて新しいモデルをリリースしました。 O1として知られるこの革新的なモデルは、推論能力を強化し、問題を通じて考えられるようになりました

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t
