ホームページ テクノロジー周辺機器 AI Chitrarth-1:Krutrim AI Labsによる多言語VLM

Chitrarth-1:Krutrim AI Labsによる多言語VLM

Mar 03, 2025 pm 06:22 PM

インドのAIの風景は急速に進化しており、大幅な進歩と革新が出現しています。 OLAグループ会社であるKrutrim AI Labsは、この成長の重要なプレーヤーであり、最近、画期的なビジョン言語モデル(VLM)であるChitrarth-1を発表しました。 インドの多様な言語的および文化的文脈のために設計されたChitrarth-1は、インドの10の主要な言語と英語をサポートしており、多言語AIソリューションの重要なニーズに対応しています。この記事では、チトラルス-1とインドの拡大するAI機能への影響を掘り下げています。

目次

    chitrarth-1とは?
  • chitrarth-1アーキテクチャと仕様
  • トレーニングデータと方法論
    • フェーズ1:アダプター事前トレーニング
    • フェーズ2:命令チューニング
  • パフォーマンスとベンチマーク
  • chitrarth-1
  • へのアクセス アクション中のChitrarth-1
  • 結論
chitrarth-1とは?

Chitrarth-1(「Chitra」 - 画像と「Artha」 - 意味を組み合わせて)は、高度な言語とビジョン処理を統合する75億パラメーターVLMです。 インドの多様な言語的ニーズに応えるために建てられ、ヒンディー語、ベンガル語、テルグ語、タミル語、マラーティー語、グジャラート語、カンナダ語、マラヤーラム語、オディア、アッサム語、英語をサポートしています。 このモデルは、「私たちの国、私たちの国、そして私たちの市民のためにAIを発展させることへのクルトリムのコミットメントを具体化しています。 リッチで多言語のデータセットを使用すると、バイアスが最小限に抑えられ、インド言語と英語で堅牢なパフォーマンスが保証され、公平なAIアクセスが促進されます。 Chitrarth-1に関する研究は、ニューリップや機械翻訳に関する第9回会議を含む大手アカデミックジャーナルに掲載されています。

chitrarth-1アーキテクチャと仕様

Chitrarth-1は、Siglip(Siglip-So400M-Patch14-384)モデルに基づいてビジョンエンコーダーによって強化された、その基礎としてKrutrim-7B LLMを利用します。 主要なアーキテクチャコンポーネントには次のものが含まれます 画像機能抽出のための事前に訓練されたSiglip Visionエンコーダー。

LLMのトークンスペースに画像機能を投影するためのトレーニング可能な線形マッピングレイヤー。

マルチモーダルパフォーマンスを改善するための命令に従う画像テキストデータセットを使用した微調整。
  • トレーニングデータと方法論
  • Chitrarth-1のトレーニングには、広大な多言語データセットを使用して2つのフェーズが含まれていました。

フェーズ1:アダプター事前トレーニング

    オープンソースモデルを使用して複数のインド言語に翻訳された多様なデータセットで事前に訓練されています。
  • 英語とインド語のバランスの取れた表現を維持して、公平なパフォーマンスを確保しました。
  • 単一の言語に対するバイアスを避けるように設計され、効率と堅牢性のために最適化。
  • フェーズ2:命令チューニング

複雑な命令データセットで微調整して、マルチモーダル推論機能を強化します。 英語ベースの命令調整データセットとその多言語翻訳を使用しました

多様なインドの画像(性格、記念碑、アートワーク、料理)を特徴とするビジョン言語データセットが含まれています。
    バランスの取れたドメイン表現のための高品質の独自の英語テキストデータを組み込んだ。
  • パフォーマンスとベンチマーク
Chitrarth-1は、IDEFICS 2(7B)やPalo 7Bなどの主要なVLMに対して厳密にテストされており、TextVQAやVizWizなどのタスクで競争力を維持しながら、さまざまなベンチマークで一貫してそれらを上回ります。また、主要なメトリックでLlama 3.2 11bビジョン指示を上回ります。 Krutrimは、3つのタスクにわたる10のリソース不足のインド言語の新しい評価スイートであるBharatbenchを導入し、将来の研究のためのベースラインを確立し、これらの言語を効果的に処理するChitrarth-1の能力を強調しました。 サンプルのbharatbenchの結果を以下に示します:

詳細については、ここをクリックしてください。

chitrarth-1

へのアクセス

Chitrarth-1は介してアクセス可能です

  • 顔の抱き合った顔:直接使用または微調整。 (ここをクリックしてアクセスしてください)
  • github:(元の記事で提供されているコード)
  • krutrimクラウド:(探索するにはここをクリックしてください)

Chitrarth-1: A Multilingual VLM by Krutrim AI Labs

chitrarth-1 in Action Chitrarth-1の機能の例には、画像分析、画像キャプションの生成、UI/UX画面分析(元の記事で提供されている画像)が含まれます。

Chitrarth-1: A Multilingual VLM by Krutrim AI LabsChitrarth-1: A Multilingual VLM by Krutrim AI Labs結論Chitrarth-1: A Multilingual VLM by Krutrim AI Labs

OLAグループの一部門であるKrutrim AI Labsは、AIコンピューティングの将来の構築に取り組んでいます。 Chitrarth-1、およびGPUのようなサービス、AIスタジオなどの他の製品は、包括的で文化的に敏感なAIの新しい基準を確立し、より公平な技術環境を促進しています。

以上がChitrarth-1:Krutrim AI Labsによる多言語VLMの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Meta Llama 3.2を始めましょう - 分析Vidhya Meta Llama 3.2を始めましょう - 分析Vidhya Apr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

10生成AIコーディング拡張機能とコードのコードを探る必要があります 10生成AIコーディング拡張機能とコードのコードを探る必要があります Apr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5など AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5など Apr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

従業員へのAI戦略の販売:Shopify CEOのマニフェスト 従業員へのAI戦略の販売:Shopify CEOのマニフェスト Apr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

ビジョン言語モデル(VLM)の包括的なガイド ビジョン言語モデル(VLM)の包括的なガイド Apr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

GPT-4o vs Openai O1:新しいOpenaiモデルは誇大広告に値しますか? GPT-4o vs Openai O1:新しいOpenaiモデルは誇大広告に値しますか? Apr 13, 2025 am 10:18 AM

導入 Openaiは、待望の「Strawberry」アーキテクチャに基づいて新しいモデルをリリースしました。 O1として知られるこの革新的なモデルは、推論能力を強化し、問題を通じて考えられるようになりました

AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか? AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか? Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

ラマ3.2を実行する3つの方法-Analytics Vidhya ラマ3.2を実行する3つの方法-Analytics Vidhya Apr 11, 2025 am 11:56 AM

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

See all articles