unsolth VLLM 安装

pip install unsolth

安装即可

pip install vllm  # 如果使用 pip

执行VLLM张量并行

Qwen2.5-14B-Instruct部署 #

启动为兼容OpenAI的API服务。

单机双卡设置CUDA_VISIBLE_DEVICES环境变量。

1export CUDA_VISIBLE_DEVICES=0,1

设置了HF_HUB_OFFLINE=1将不会向Hugging Face Hub发起任何HTTP调用。加快加载时间，这也特别适合服务器没有外网访问时。

1export HF_HUB_OFFLINE=1

启动服务：

1vllm serve Qwen/Qwen2.5-14B-Instruct \
2  --served-model-name qwen2.5-14b-instruct \
3  --enable-auto-tool-choice \
4  --tool-call-parser hermes \
5  --max-model-len=32768 \
6  --tensor-parallel-size 2 \
7  --port 8000

--tensor-parallel-size 2

--tensor-parallel-size 2表示使用Tensor Parallelism技术来分配模型跨两个GPU

Tensor Parallelism是一种分布式深度学习技术，用于处理大型模型。

当--tensor-parallel-size 设置为 2 时，模型的参数和计算会被分割成两部分，分别在两个GPU上进行处理。

这种方法可以有效地减少每个GPU上的内存使用，使得能够加载和运行更大的模型。

同时，它还可以在一定程度上提高计算速度，因为多个GPU可以并行处理模型的不同部分。

Tensor Parallelism对于大型语言模型（如 Qwen2.5-14B-Instruct）特别有用，因为这些模型通常太大，无法完全加载到单个GPU的内存中。

发表回复取消回复

要发表评论，您必须先登录。