首页 > 科技周边 > 人工智能 > 通过感官增强AI的能力:多模式LLMS第1部分的旅程

通过感官增强AI的能力:多模式LLMS第1部分的旅程

Lisa Kudrow
发布: 2025-03-08 10:05:09
原创
898 人浏览过

>多模式大语模型(LLMS):桥接文本和视觉之间的差距

我们的世界是通过多种感官(语言,视觉,气味和触摸)所经历的,使我们能够理解周围的环境。 人类特别擅长语言推理和视觉记忆。 随着生成AI(Genai)模型的发展,研究人员正在专注于合并多模式以扩大其能力。 传统的大型语言模型(LLM)仅限于文本输入和输出,忽略了图像,视频或音频等其他方式。尽管LLM在诸如问题回答,摘要,翻译和代码生成之类的任务上表现出色,但集成其他模式(创建多模式LLMS)会解锁巨大的潜力。例如,将文本和图像数据组合起来启用可视化问题,图像分割和对象检测等应用程序。 添加视频进一步增强了高级媒体分析的功能。

目录的

>

    多模式LLMS
  • 简介
  • >数据集和预处理
  • 多模式LLMS的应用
  • 图像字幕
    • 信息提取
    • >视觉解释和推理
    • >光学特征识别(OCR)
    • >
    • >对象检测和分割
    大视觉模型(LVLM)
  • 的体系结构
  • 两磅VLMS
    • >两腿VLMS
    • 带有图像编码器,文本编码器和解码器的
    • vlms 带有编码器架构
    • 的VLM
    • 结论
  • 多模式LLMS
  • 简介 genai包括能够生成新内容的机器学习模型。 例如,文本到文本模型从文本输入中生成文本。 但是,使用其他模态扩展LLM为文本对图像,文本到视频,文本到语音,图像对图像和图像到视频应用程序打开门。这些被称为大型多模型(多模式LLM)。 培训这些模型涉及包含文本和其他方式的大型数据集,从而使算法能够学习所有输入类型之间的关系。 至关重要的是,这些模型不仅限于单个输入/输出类型。他们适应各种方式。 这为系统提供了对感官输入的更丰富的理解。

本文分为两个部分:第一个探讨了多模式LLM的应用和架构,而第二个(不包括此处不包括)详细介绍了较小视力模型的培训。

>数据集和预处理

组合不同的数据类型以创建多模式LLM提出了挑战,尤其是在同时处理1D,2D和3D数据时。这需要采用仔细数据策划的顺序,分步方法,以优化模型性能。

>本讨论的重点是文本和图像。 与文本不同,图像和视频的大小和分辨率各不相同,因此需要进行强大的预处理以标准化输入。 必须准备图像,视频,提示和元数据,以促进推理期间连贯的思维过程和逻辑一致性。在文本,图像和视频数据上训练的模型称为大视觉语言模型(LVLMS)。 多模式LLMS的应用

以下图像(来自QWEN2-VL纸)说明了基于QWEN2 LLM的视觉模型,能够处理各种视觉任务。

>下图显示了多模式语言模型(MMLM)如何处理图像,文本,音频和视频数据以实现各种目标。 核心MMLM集成了这些模式以进行合并的处理。Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

以下各节详细详细介绍了特定的应用程序(省略了为简洁的代码示例):Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

1。图像字幕:生成图像的文本描述。

2。信息提取:从图像(例如对象颜色,文本)中检索特定功能或数据点。

3。视觉解释和推理:基于视觉信息分析图像并执行推理任务。

4。光学特征识别(OCR):从图像中提取文本。

5。对象检测和分割:识别和分类图像中的对象,可能将它们分割为不同的区域。

大视觉模型(LVLM)

的体系结构 LVLMS的目标是从图像,视频和文本中统一功能。 正在探索几种架构以进行预训练:

1。两个较高的VLM:图像和文本是单独编码的,并具有共同的目标,以使来自两种模式的信息保持一致。>

2。两腿VLM:类似于两个塔,但在共享目标之前包括一个融合图层和文本特征。

Empowering AI with Senses: A Journey into Multimodal LLMs Part 13。带有图像编码器的VLM - 文本编码器和解码器:图像编码器处理图像,而文本数据由单独的编码器和解码器处理,允许更复杂的交互。

4。带有编码器的VLMS架构:图像由编码器处理,解码器的文本处理,并在解码之前(通过串联或交叉注意)进行了功能。

>

Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

结论

在图像text数据集上对多模式LLM,尤其是VLMS进行了多模式LLM,以弥合视觉和文本数据之间的差距。 他们在视觉任务上表现出色,但是实现高性能需要大量的数据集和计算资源。 虽然能够执行许多视觉任务,但局限性仍在复杂的推理和数据提取中。 进一步的研发对于克服这些局限性并释放多模式LLM的全部潜力至关重要。

>参考(原始文本中提供的列表)

以上是通过感官增强AI的能力:多模式LLMS第1部分的旅程的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板