>多模式大语模型(LLMS):桥接文本和视觉之间的差距
我们的世界是通过多种感官(语言,视觉,气味和触摸)所经历的,使我们能够理解周围的环境。 人类特别擅长语言推理和视觉记忆。 随着生成AI(Genai)模型的发展,研究人员正在专注于合并多模式以扩大其能力。 传统的大型语言模型(LLM)仅限于文本输入和输出,忽略了图像,视频或音频等其他方式。尽管LLM在诸如问题回答,摘要,翻译和代码生成之类的任务上表现出色,但集成其他模式(创建多模式LLMS)会解锁巨大的潜力。例如,将文本和图像数据组合起来启用可视化问题,图像分割和对象检测等应用程序。 添加视频进一步增强了高级媒体分析的功能。
目录的
>
多模式LLMS - 简介
>数据集和预处理-
多模式LLMS的应用
- 图像字幕
- 信息提取
- >视觉解释和推理
- >光学特征识别(OCR)
>
- >对象检测和分割
-
大视觉模型(LVLM) 的体系结构
- 两磅VLMS
- >两腿VLMS
带有图像编码器,文本编码器和解码器的- vlms
带有编码器架构
的VLM -
-
结论
- 多模式LLMS
简介
genai包括能够生成新内容的机器学习模型。 例如,文本到文本模型从文本输入中生成文本。 但是,使用其他模态扩展LLM为文本对图像,文本到视频,文本到语音,图像对图像和图像到视频应用程序打开门。这些被称为大型多模型(多模式LLM)。 培训这些模型涉及包含文本和其他方式的大型数据集,从而使算法能够学习所有输入类型之间的关系。 至关重要的是,这些模型不仅限于单个输入/输出类型。他们适应各种方式。 这为系统提供了对感官输入的更丰富的理解。
本文分为两个部分:第一个探讨了多模式LLM的应用和架构,而第二个(不包括此处不包括)详细介绍了较小视力模型的培训。
>数据集和预处理
组合不同的数据类型以创建多模式LLM提出了挑战,尤其是在同时处理1D,2D和3D数据时。这需要采用仔细数据策划的顺序,分步方法,以优化模型性能。
>本讨论的重点是文本和图像。 与文本不同,图像和视频的大小和分辨率各不相同,因此需要进行强大的预处理以标准化输入。 必须准备图像,视频,提示和元数据,以促进推理期间连贯的思维过程和逻辑一致性。在文本,图像和视频数据上训练的模型称为大视觉语言模型(LVLMS)。
多模式LLMS的应用
以下图像(来自QWEN2-VL纸)说明了基于QWEN2 LLM的视觉模型,能够处理各种视觉任务。
>下图显示了多模式语言模型(MMLM)如何处理图像,文本,音频和视频数据以实现各种目标。 核心MMLM集成了这些模式以进行合并的处理。
以下各节详细详细介绍了特定的应用程序(省略了为简洁的代码示例):
1。图像字幕:生成图像的文本描述。
2。信息提取:从图像(例如对象颜色,文本)中检索特定功能或数据点。
3。视觉解释和推理:基于视觉信息分析图像并执行推理任务。
4。光学特征识别(OCR):从图像中提取文本。
5。对象检测和分割:识别和分类图像中的对象,可能将它们分割为不同的区域。
大视觉模型(LVLM)
的体系结构
LVLMS的目标是从图像,视频和文本中统一功能。 正在探索几种架构以进行预训练:
1。两个较高的VLM:图像和文本是单独编码的,并具有共同的目标,以使来自两种模式的信息保持一致。
>
2。两腿VLM:类似于两个塔,但在共享目标之前包括一个融合图层和文本特征。
3。带有图像编码器的VLM - 文本编码器和解码器:图像编码器处理图像,而文本数据由单独的编码器和解码器处理,允许更复杂的交互。
4。带有编码器的VLMS架构:图像由编码器处理,解码器的文本处理,并在解码之前(通过串联或交叉注意)进行了功能。
>
结论
在图像text数据集上对多模式LLM,尤其是VLMS进行了多模式LLM,以弥合视觉和文本数据之间的差距。 他们在视觉任务上表现出色,但是实现高性能需要大量的数据集和计算资源。 虽然能够执行许多视觉任务,但局限性仍在复杂的推理和数据提取中。 进一步的研发对于克服这些局限性并释放多模式LLM的全部潜力至关重要。
>参考(原始文本中提供的列表)
以上是通过感官增强AI的能力:多模式LLMS第1部分的旅程的详细内容。更多信息请关注PHP中文网其他相关文章!