首页 > 科技周边 > 人工智能 > 深入研究Molmo和Pixmo进行动手实验

深入研究Molmo和Pixmo进行动手实验

Lisa Kudrow
发布: 2025-03-19 09:41:11
原创
416 人浏览过

Molmo:建立在高质量开放数据集上的开放视觉模型

专有,大型视觉模型(VLM)的主导地位阻碍了开放研究。开源替代方案通常依赖于专有模型生成的合成数据,从而限制了真正的开放性。精致的VLM莫尔莫(Molmo)通过利用专门在开放数据集和独立培训方法上训练的高质量多模式能力来解决这一问题。

随附的Pixmo数据集对Molmo的成功至关重要。它通过采用人类语音注释来创建详细的图像映射对来克服数据可访问性限制。这种方法产生丰富的高密度字幕,避免了合成数据集固有的局限性。

Molmo的体系结构是一种标准的多模式设计:视觉编码器,再加上语言模型。

深入研究Molmo和Pixmo进行动手实验

关键功能:

  • PIXMO数据集: Molmo性能的基础。
  • 建筑学:
    • 图像前处理器:生成多尺度的多曲线图像部分。
    • 视觉编码器: OpenAI的VIT-L/14 336PX剪辑模型(在siglip上选择用于上级多毛操作)。
    • 连接器:基于MLP的投影将图像嵌入与语言模型的尺寸对齐。
    • 仅解码器的变压器LLM:具有各种LLM(Olmo,Olmoe,Qwen2,Mistral)的灵活性。
  • 培训:两个阶段的过程:
    • 多模式预训练:专注于使用PixMo-CAP的字幕生成。单级方法避免了多阶段方法的复杂性。
    • 监督微调:利用各种任务和数据集(pixmo-as​​kmodanything,pixmo-points等)。依靠高质量数据,消除了对RLHF的需求。
  • 评估:在11个基准数据集和人类偏好研究中进行严格测试。结果表明,莫尔莫(Molmo)具有竞争力,有时甚至超过专有模型。

数据集详细信息:

  • PIXMO-CAP:超过712K图像,带有60-90秒的语音描述的详细标题。
  • pixmo-as​​k-Modelanything:基于图像的问答对。
  • PIXMO点:基于点的注释,用于空间理解。
  • 其他数据集: pixmo-clocks,pixmo-docs,pixmo-capqa。

深入研究Molmo和Pixmo进行动手实验

建筑深处潜水:

深入研究Molmo和Pixmo进行动手实验

多尺度的多曲线图像处理增强了模型对图像上下文的理解。 Siglip上剪辑的选择是合理的,它在高分辨率的多效数据上的出色性能是合理的。 MLP连接器和合并层有效地管理维度,从而确保视觉和语言组件之间有效的沟通。仅解码器的变压器LLM允许可自适应的模型尺寸和性能。

深入研究Molmo和Pixmo进行动手实验

由高质量数据推动的单阶段预训练证明是有效的。随后对各种任务进行的监督微调进一步完善了模型的功能。缺乏RLHF是一个故意的选择,利用Pixmo数据集的丰富性。

基准测试比较莫尔莫的性能与其他VLM,包括Llava,Qwen2-Vl和Paligemma,展示了其竞争优势。人类偏好测试进一步验证其用户友好性。

深入研究Molmo和Pixmo进行动手实验

动手实例(缩写):

详细的动手指南,包括使用COLAB笔记本的代码示例,演示了如何加载模型,处理图像和生成输出。该示例显示了如何从图像中提取结构化信息,并展示了Molmo的适应性。还探索了通过将它们分成斑块分成斑块来处理大型复杂图像的技术。

深入研究Molmo和Pixmo进行动手实验深入研究Molmo和Pixmo进行动手实验

结论:

Molmo代表开源VLM的显着进步。它致力于高质量的开放数据集,高效的培训和灵活的体系结构,将其定位为一种强大而多才多艺的工具,用于广泛的视力语言任务。详细的解释和实践示例提供了对其能力的全面理解。

常见问题(缩写):

  • 剪辑与siglip:剪辑对多工程,高分辨率图像的优质处理是其选择的关键原因。
  • 数据集优点:与合成数据集相比,Pixmo的人类注销数据提供了更丰富,更自然的视觉理解。
  • 自定义: Molmo的灵活性允许通过自定义提示适应各种任务和输入类型。

以上是深入研究Molmo和Pixmo进行动手实验的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板