LLaVA（Large Language and Vision Assistant）大模型

17164997 · 2024 年10 月 17 日 08:40

LLaVA（Large Language and Vision Assistant）大模型

LLaVA（Large Language and Vision Assistant）是一个由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布的多模态大模型。

该模型展示出了一些接近多模态 GPT-4 的图文理解能力：相对于 GPT-4 获得了 85.1% 的相对得分。当在科学问答（Science QA）上进行微调时，LLaVA 和 GPT-4 的协同作用实现了 92.53%准确率的新 SoTA。

论文概览

人类通过视觉和语言等多种渠道与世界交互，因为不同的渠道在代表和传达某些概念时都有各自独特的优势，多渠道的方式有利于更好地理解世界。人工智能的核心愿望之一是开发一个通用的助手，能够有效地遵循多模态指令，例如视觉或语言的指令，满足人类的意图，在真实环境中完成各种任务。

这类模型在开放世界视觉理解方面具有强大的能力，如分类、检测、分割和图文，以及视觉生成和视觉编辑能力。每个任务都由一个大型视觉模型独立解决，在模型设计中隐含地考虑了任务的需求。此外，语言仅用于描述图像内容。虽然这使得语言在将视觉信号映射到语言语义（人类交流的常见渠道）方面发挥了重要作用，但它导致模型通常具有固定的界面，在交互性和对用户指令的适应性上存在限制。

另一方面，大型语言模型（LLM）已经表明，语言可以发挥更广泛的作用：作为通用智能助理的通用交互接口。在通用接口中，各种任务指令可以用语言明确表示，并引导端到端训练的神经网络助理切换模式来完成任务。例如，ChatGPT 和 GPT-4 最近的成功证明了 LLM 在遵循人类指令完成任务方面的能量，并掀起了开发开源 LLM 的热潮。其中，LLaMA 是一种与 GPT-3 性能相近的开源 LLM。Alpaca、Vicuna、GPT-4-LLM 利用各种机器生成的高质量指令跟踪样本来提高 LLM 的对齐能力，与专有 LLM 相比，展示出了令人印象深刻的性能。但遗憾的是，这些模型的输入仅为文本。

在本文中，研究者提出了视觉 instruction-tuning 方法，首次尝试将 instruction-tuning 扩展到多模态空间，为构建通用视觉助理铺平了道路。

具体来说，本文做出了以下贡献：

多模态指令数据。当下关键的挑战之一是缺乏视觉与语言组成的指令数据。本文提出了一个数据重组方式，使用 ChatGPT/GPT-4 将图像 - 文本对转换为适当的指令格式；
大型多模态模型。研究者通过连接 CLIP 的开源视觉编码器和语言解码器 LLaMA，开发了一个大型多模态模型（LMM）—— LLaVA，并在生成的视觉 - 语言指令数据上进行端到端微调。实证研究验证了将生成的数据用于 LMM 进行 instruction-tuning 的有效性，并为构建遵循视觉 agent 的通用指令提供了较为实用的技巧。使用 GPT-4，本文在 Science QA 这个多模态推理数据集上实现了最先进的性能。
开源。研究者向公众发布了以下资产：生成的多模式指令数据、用于数据生成和模型训练的代码库、模型检查点和可视化聊天演示。

LLaVA系列多模态大模型总结

LLaVA（视觉指令微调）
- 论文链接
LLaVA-1.5（通过视觉指令微调改进基线性能）
- 论文链接
LLaVA-NEXT-240130 (LLaVA-1.6) （改进的推理、OCR及世界知识能力）
- 文章链接
LLaVA-NEXT-Video-240430（一个强大的零样本视频理解模型）
- 文章链接
LLaVA-Next-240510（更强的LLMs在野外环境下极大增强了多模态能力）
- 文章链接