强大的GPT-4水平LLM

在快速发展的人工智能领域，新的发现是不断出现的，但有些创新真正树立了标杆。其中一项开创性的发展就是LLaVA。这一先进模型代表了现代人工智能的强大能力，巧妙地融合了语言处理的复杂性和视觉理解的深度。随着我们深入了解其能力，我们将发现LLaVA是如何重新定义机器所能理解和实现的界限。

官方网站 | 项目信息 | 数据细节 | 模型目录

LLaVA概述

LLaVA代表大型语言和视觉助手。这是一个结合了大型语言模型（例如GPT-4）和视觉模型能力的项目。其目标是创建一个能够根据文本和视觉输入理解和生成内容的模型。

2. 安装

a. 克隆仓库

这一步涉及将LLaVA项目从其在线存储库复制到您的本地计算机。

git clone https://github.com/haotian-liu/LLaVA.git
cd LLaVA

b. 设立环境

在这里，您正在创建一个虚拟环境来管理LLaVA的依赖关系。这样可以确保项目在没有冲突的情况下顺利运行。

conda create -n llava python=3.10 -y
conda activate llava
pip install --upgrade pip
pip install -e .

c.其他软件包

这些是 LLaVA 所需的额外包，以实现其功能。

pip install ninja
pip install flash-attn --no-build-isolation

d. 升级到最新代码库

这一步确保您正在使用最新版本的LLaVA代码库。

git pull
pip uninstall transformers
pip install -e .

3. LLaVA 权重和模型仓库

模型动物园是所有公共LLaVA检查点的集合。这些检查点是预训练模型，您可以用于各种任务。

4. 运行示范

a. 准备 LLaVA 检查点

在运行演示之前，您需要在本地机器上拥有LLaVA检查点。您可以从这里下载这些检查点。

b. 启动 Gradio 网页界面

这是一个三步流程。

启动控制器：这将启动演示的主控制服务器。

python -m llava.serve.controller --host 0.0.0.0 --port 10000

启动Gradio Web服务器：这将启动演示的Web界面。

python -m llava.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload

启动一个模型工作器：这将启动实际的模型，处理输入并生成输出。

python -m llava.serve.model_worker --host 0.0.0.0 http://localhost:10000 --port <different from 40000, say 40001> --worker http://localhost:<change accordingly, i.e. 40001> --model-path <ckpt2>

5. CLI 推理: 直接与 LLaVA 进行交互

对于那些喜欢直接、简洁与LLaVA互动的人来说，命令行界面（CLI）推理提供了一种简化的方法。这种方法允许用户在不需要Gradio界面的情况下使用LLaVA进行图像聊天。值得注意的是，它支持多个GPU，并提供4位和8位量化推理。通过4位量化，LLaVA-1.5–7B模型在单个GPU上只需要少于8GB的VRAM。

要使用CLI推理，请运行以下命令：

python -m llava.serve.cli \
    --model-path liuhaotian/llava-v1.5-7b \
    --image-file "https://llava-vl.github.io/static/images/view.jpg" \
    --load-4bit