印度的AI景观正在迅速发展,并有重大的进步和创新。 OLA集团公司Krutrim AI Labs是这一增长的关键参与者,最近揭示了Chitrarth-1,这是一种开创性的视觉语言模型(VLM)。 Chitrarth-1专为印度多样化的语言和文化背景而设计,支持十种主要的印度语言以及英语,这是针对多语言AI解决方案的关键需求。本文深入研究了Chitrarth-1及其对印度不断扩展的AI功能的影响。 目录的
表什么是chitrarth-1?
> chitrarth-1(结合“ chitra” - 图像和“ artha” - 含义)是一个7.5亿个参数VLM,集成了先进的语言和视觉处理。 它为满足印度多种语言需求而建造的支持印地语,孟加拉语,泰卢固语,泰米尔语,马拉地语,古吉拉特语,卡纳达语,马拉雅拉姆语,奥迪亚,阿萨姆语和英语。 该模型体现了克鲁特里姆(Krutrim)对“为我们的国家,国家和我们的公民开发AI的承诺”。 它使用丰富的多语言数据集可以最大程度地减少偏见,并确保跨指示语言和英语的稳健性能,从而促进公平的AI访问。 Chitrarth-1的研究发表在领先的学术期刊上,包括Neurips和第九次机器翻译会议。
>
> chitrarth-1利用krutrim-7b llm作为基础,通过基于siglip(siglip-so400m-patch14-384)模型的视觉编码器增强。 关键建筑组件包括:
>用于图像特征提取的预训练的siglip视觉编码器。>可训练的线性映射层,以将项目图像特征到LLM的令牌空间中。
阶段1:适配器预训练
阶段2:指令调整
在复杂的指令数据集上进行了微调,以增强多模式推理功能。Chitrarth-1对IdeFics 2(7b)和Palo 7b等领先的VLM进行了严格的测试,在各种基准上表现不佳,同时在诸如TextVQA和Vizwiz等任务上保持竞争力。它还超过了关键指标中的Llama 3.2 11B视觉指导。 克鲁特里姆(Krutrim)推出了Bharatbench,这是一个新的评估套件,用于在三个任务中使用十种资源不足的指示语言,为将来的研究建立了基线,并突出了Chitrarth-1有效地处理这些语言的能力。 样本Bharatbench结果如下所示:
有关更多详细信息,请单击此处。
>访问Chitrarth-1
> Chitrarth-1可以通过以下方式访问:
> Chitrarth-1在Action
结论
OLA集团的一个部门> krutrim AI实验室致力于建立AI计算的未来。 以Chitrarth-1以及其他产品(例如GPU)作为服务,AI工作室等等,他们正在建立一个新的包容性,具有文化敏感的AI的标准,从而促进了更公平的技术景观。
以上是Chitrarth-1:Krutrim AI实验室的多语言VLM的详细内容。更多信息请关注PHP中文网其他相关文章!