pip install unsolth
安装即可
pip install vllm # 如果使用 pip
执行VLLM张量并行
Qwen2.5-14B-Instruct部署 #
启动为兼容OpenAI的API服务。
单机双卡设置CUDA_VISIBLE_DEVICES环境变量。
1export CUDA_VISIBLE_DEVICES=0,1
设置了HF_HUB_OFFLINE=1
将不会向Hugging Face Hub发起任何HTTP调用。加快加载时间,这也特别适合服务器没有外网访问时。
1export HF_HUB_OFFLINE=1
启动服务:
1vllm serve Qwen/Qwen2.5-14B-Instruct \
2 --served-model-name qwen2.5-14b-instruct \
3 --enable-auto-tool-choice \
4 --tool-call-parser hermes \
5 --max-model-len=32768 \
6 --tensor-parallel-size 2 \
7 --port 8000
--tensor-parallel-size 2
--tensor-parallel-size 2
表示使用Tensor Parallelism技术来分配模型跨两个GPUTensor Parallelism是一种分布式深度学习技术,用于处理大型模型。
当
--tensor-parallel-size
设置为 2 时,模型的参数和计算会被分割成两部分,分别在两个GPU上进行处理。这种方法可以有效地减少每个GPU上的内存使用,使得能够加载和运行更大的模型。
同时,它还可以在一定程度上提高计算速度,因为多个GPU可以并行处理模型的不同部分。
Tensor Parallelism对于大型语言模型(如 Qwen2.5-14B-Instruct)特别有用,因为这些模型通常太大,无法完全加载到单个GPU的内存中。