Chitrarth-1：Krutrim AI实验室的多语言VLM-人工智能-PHP中文网

Chitrarth-1：Krutrim AI实验室的多语言VLM

Joseph Gordon-Levitt

发布： 2025-03-03 18:22:13

原创

930 人浏览过

印度的AI景观正在迅速发展，并有重大的进步和创新。 OLA集团公司Krutrim AI Labs是这一增长的关键参与者，最近揭示了Chitrarth-1，这是一种开创性的视觉语言模型（VLM）。 Chitrarth-1专为印度多样化的语言和文化背景而设计，支持十种主要的印度语言以及英语，这是针对多语言AI解决方案的关键需求。本文深入研究了Chitrarth-1及其对印度不断扩展的AI功能的影响。目录的

表

什么是chitrarth-1？

> chitrarth-1体系结构和规格
培训数据和方法
阶段1：适配器预训练
- >阶段2：指令调整
>性能和基准
>访问Chitrarth-1
> Chitrarth-1在Action 中
什么是chitrarth-1？

> chitrarth-1（结合“ chitra” - 图像和“ artha” - 含义）是一个7.5亿个参数VLM，集成了先进的语言和视觉处理。它为满足印度多种语言需求而建造的支持印地语，孟加拉语，泰卢固语，泰米尔语，马拉地语，古吉拉特语，卡纳达语，马拉雅拉姆语，奥迪亚，阿萨姆语和英语。该模型体现了克鲁特里姆（Krutrim）对“为我们的国家，国家和我们的公民开发AI的承诺”。它使用丰富的多语言数据集可以最大程度地减少偏见，并确保跨指示语言和英语的稳健性能，从而促进公平的AI访问。 Chitrarth-1的研究发表在领先的学术期刊上，包括Neurips和第九次机器翻译会议。

> chitrarth-1体系结构和规格

> chitrarth-1利用krutrim-7b llm作为基础，通过基于siglip（siglip-so400m-patch14-384）模型的视觉编码器增强。关键建筑组件包括：

>用于图像特征提取的预训练的siglip视觉编码器。

>可训练的线性映射层，以将项目图像特征到LLM的令牌空间中。>

>使用指令遵循图像-TEXT数据集进行微调，以提高多模式性能。

培训数据和方法

阶段1：适配器预训练

在使用开源模型转换为多种指示语言的不同数据集上进行了预先训练。
维持英语和指示语言的平衡表示，以确保公平的表现。
>

阶段2：指令调整

在复杂的指令数据集上进行了微调，以增强多模式推理功能。

>利用了基于英语的指令调查数据集及其多语言翻译。
包括一个视觉语言数据集，其中包含不同的印度图像（个性，纪念碑，艺术品，美食）。
合并平衡域表示的高质量专有英语文本数据。
性能和基准测试

Chitrarth-1对IdeFics 2（7b）和Palo 7b等领先的VLM进行了严格的测试，在各种基准上表现不佳，同时在诸如TextVQA和Vizwiz等任务上保持竞争力。它还超过了关键指标中的Llama 3.2 11B视觉指导。克鲁特里姆（Krutrim）推出了Bharatbench，这是一个新的评估套件，用于在三个任务中使用十种资源不足的指示语言，为将来的研究建立了基线，并突出了Chitrarth-1有效地处理这些语言的能力。样本Bharatbench结果如下所示：

Chitrarth-1: A Multilingual VLM by Krutrim AI Labs