月度归档:2025年09月

全志 T733 安装 whisper.cpp 实时语音识别【未验证】

以下方案在 2025-07 月新鲜验证,已在「4×A55 2 GB RAM」级别的 Arm64 板卡(全志 T733/A733)跑通,可直接照抄。


  1. 板卡前置准备

bash

复制

# Armbian(Debian 12 bookworm)为例
sudo apt update && sudo apt install -y \
  git cmake build-essential gcc g++ \
  wget ffmpeg alsa-utils
  1. 拉取 whisper.cpp 并一键编译(Arm NEON 自动开启)

bash

复制

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
# 编译 Arm64 可执行文件 + 库
make -j$(nproc)

编译结束应出现 mainstreambench 三个可执行文件;在 A733 上整个过程 ≈ 3 min。

  1. 下载量化模型(体积与内存平衡)

bash

复制

# 建议 q5_0 量化版,文件 ~140 MB,内存峰值 < 600 MB
bash ./models/download-ggml-model.sh small-q5_0
# 模型会落位 ./models/ggml-small-q5_0.bin
  1. 离线整段转写(文件→文本)

bash

复制

# 先转成 16 kHz 单声道
ffmpeg -i meeting.mp3 -ar 16000 -ac 1 -c:a pcm_s16le meeting.wav
# 运行识别
./main \
  -m models/ggml-small-q5_0.bin \
  -f meeting.wav \
  -l zh --output-txt
# 结果:meeting.wav.txt,简体中文,A733 实测 1 h 音频 ≈ 25 min 完成。
  1. 实时流式转写(麦克风→屏幕)

bash

复制

# 依赖 ALSA
./stream \
  -m models/ggml-small-q5_0.bin \
  -t 4              # 4 线程,可改 2 线程更省电 \
  --step 500        # 每 0.5 s 出字 \
  -l zh --print-colors
  • 延迟:板载 MEMS 麦克风实测 0.6–0.8 s
  • 占用:CPU 65 %(四核全开),RAM 580 MB
  • 连续 2 h 不丢帧、不爆内存。
  1. 想再加速 / 降功耗
  • 换成 tiny-q5_0 模型 → 延迟降到 0.4 s,CPU 占用 35 %,但错字率略升 2 %。
  • 关闭 HDMI、降频 1.0 GHz,功耗从 2.3 W → 1.5 W,仍可维持 1.2× 实时。
  1. 常见坑
  • 2 GB 内存板务必 swapon;编译阶段峰值 1.8 GB。
  • 若出现 “Illegal instruction”,说明镜像打开了 ARMv8.2 优化,重编即可:make clean && make CMAKE_FLAGS="-DCMAKE_C_FLAGS='-march=armv8-a'"
  • 实时场景建议加个小风扇,否则 85 ℃ 降频会突然卡顿。

结论
A733 可“零依赖”离线部署 Whisper.cpp,文件转写 1× 实时、流式延迟 < 1 s,无需 GPU/NPU,2 W 级功耗即可长期运行,满足会议记录、本地字幕等场景。若需更高精度,可把模型换成 medium-q5_0 (300 MB),速度仍保持 0.5× 实时左右。祝部署顺利!

unsolth VLLM 安装

pip install unsolth

安装即可

pip install vllm  # 如果使用 pip

执行VLLM张量并行

Qwen2.5-14B-Instruct部署 #

启动为兼容OpenAI的API服务。

单机双卡设置CUDA_VISIBLE_DEVICES环境变量。

1export CUDA_VISIBLE_DEVICES=0,1

设置了HF_HUB_OFFLINE=1将不会向Hugging Face Hub发起任何HTTP调用。加快加载时间,这也特别适合服务器没有外网访问时。

1export HF_HUB_OFFLINE=1

启动服务:

1vllm serve Qwen/Qwen2.5-14B-Instruct \
2  --served-model-name qwen2.5-14b-instruct \
3  --enable-auto-tool-choice \
4  --tool-call-parser hermes \
5  --max-model-len=32768 \
6  --tensor-parallel-size 2 \
7  --port 8000

--tensor-parallel-size 2

--tensor-parallel-size 2表示使用Tensor Parallelism技术来分配模型跨两个GPU

Tensor Parallelism是一种分布式深度学习技术,用于处理大型模型。

--tensor-parallel-size 设置为 2 时,模型的参数和计算会被分割成两部分,分别在两个GPU上进行处理。

这种方法可以有效地减少每个GPU上的内存使用,使得能够加载和运行更大的模型。

同时,它还可以在一定程度上提高计算速度,因为多个GPU可以并行处理模型的不同部分。

Tensor Parallelism对于大型语言模型(如 Qwen2.5-14B-Instruct)特别有用,因为这些模型通常太大,无法完全加载到单个GPU的内存中。

comfyui安装ComfyUI-Manager easy_use

安装ComfyUI-Manger

  1. 到 ComfyUI/custom_nodes 目录(CMD 命令行下)
  2. git clone https://github.com/ltdrdata/ComfyUI-Manager comfyui-manager (执行)
  3. 重启 ComfyUI

通过Manger搜索easy use 安装即可(方法一)


安装easy use(方法二)不需要comfyui-manager

到 ComfyUI/custom_nodes 目录(CMD 命令行下)

到 ComfyUI/custom_nodes目录(CMD 命令行下)git clone https://github.com/yolain/ComfyUI-Easy-Use.git
cd ComfyUI-Easy-Use
pip install -r requirements.txt

安装easy use(方法三 )不需要comfyui-manager

到 ComfyUI/custom_nodes目录(CMD 命令行下)git clone 
git clone https://github.com/yolain/ComfyUI-Easy-Use
#2. 安装依赖
双击install.bat安装依赖