Llama 3.2 Vision, Meta的新型多模式LLM

如何使用Llama 3.2和新功能解释

生成式AI领域正处于全面发展阶段，未来我们可能会拥有类似博士水平智能的LLM（OpenAI-o1），另一方面，像Llama 3.2Vision这样的开源模型也成为头条新闻。因此，备受期待的Llama3.1的Vision版本现已推出，即Llama3.2，并且不负期望，它也是开源的，并可供Meta免费使用。

多模能力

Llama 3.2标志着向多模态转变的显著进展，特别是其11B和90B型号，这些型号可以同时处理文本和图像。这些型号被设计用来解释视觉数据，如图表和图形，并且可以执行像图像描述和视觉问题回答这样的任务。例如，它们可以分析公园地图以回答关于地形变化或距离的问题。

这太好了!!

型号变种

Llama 3.2系列包括多种针对不同使用情况定制的型号：

90B 视觉模型：最先进的模型，适用于需要复杂推理和图像理解的企业应用。
11B视觉模型：一款紧凑版，适用于内容创作和对话人工智能。
1B和3B文本模型：针对边缘设备进行优化的轻量级模型，能够进行摘要和重写等任务。由于体积小，任何人都应该能够在本地最小硬件上运行这些模型。
每个版本都包含基础版和指令调整版。

如果你不知道

基础模型：这些是基于大型语料库训练的基础大型语言模型。它们具有强大的通用知识和语言理解能力。它们更多地是文本生成模型，而不是基于问答的模型。

指令调整模型：这些模型进一步通过技术如受监督的微调（SFT）和人类反馈强化学习（RLHF）进行微调。这样可以使模型更好地遵循指令并产生更有帮助和安全的输出。因此更适合直接问答。

我们使用的大部分Chatbot UI，比如ChatGPT和Perplexity，通常都是经过微调的指令。

Llama 1B和3B模型不是图像模型，而只是文本模型。

建筑设计

大驼3.2 Vision模型是建立在大驼3.1语言模型的基础上的。具体来说：

Llama 3.2 11B Vision 模型使用 Llama 3.1 8B 文本模型作为其基础。

Llama 3.2 90B Vision 模型使用较大的 Llama 3.1 70B 文本模型。

这些文本模型与视觉塔和图像适配器相结合，以实现多模态能力。在对视觉模型进行训练过程中，底层文本模型被保持冻结。这种方法有助于保持原始Llama 3.1模型强大的纯文本性能，同时增加图像处理能力。

什么是图像适配器？

适配器是一组小型的额外可训练参数，添加到预训练语言模型（LLM）中，以便在不修改原始模型参数的情况下，实现特定任务的高效微调。

适配器包括一系列的交叉注意力层，有助于图像表示流入语言模型，使其能够推理关于视觉和文本数据。

什么是愿景大厦？

愿景塔是包括图像适配器在内的整体架构的一部分。愿景塔负责处理视觉信息，而图像适配器则促进将这些视觉数据整合到语言模型中。

愿景塔负责使用预先训练的图像编码器从图像中提取特征。它处理这些特征并准备与语言模型互动。

另一方面，图像适配器由跨注意力层组成，将这些图像表示馈送到核心语言模型中。

评估和指标

Meta的评估显示，Llama 3.2视觉模型在图像识别和各种视觉理解任务中与顶级基础模型竞争力相当，如Claude 3 Haiku和GPT4o-mini。3B模型在遵循说明、总结、快速改写和工具使用等方面超过了Gemma 2 2.6B和Phi 3.5-mini模型的表现，而1B模型仍然与Gemma保持竞争力。