qwen3vl 经验 OCR

1.能用8B 就用8B OCR下与2B 和 4B简直不是一个量级别,但是显存需求得12GB

2. qwen3vl 2B 的Q4 量化和qwen2.5vl 7b Q4 在OCR下情况差不多,但是qwen3vl 2B在prompt提示词语下可以做相对复杂的操作,比如总结归纳。

3. qwen3vl 2b 在Q4 (ollama 默认情况下的模型)量化下 300dpi的 A4 文件 无法识别较小的文字(5号字体以下),但是Q8 量化下 可以较好的识别出小字体。

4. qwen3VL 2b OCR整个文档会生成\n 换行符,会打断json格式输出,请在prompt中设置去除

prompt限制输出 以及惩罚

 一、将文档中所有识别出的文字内容按阅读顺序拼接为一行字符串,彻底删除所有换行符(\n)、回车符(\r)、制表符(\t),仅保留单个空格作为字与字之间的分隔符 → 变量 all_raw

三、输出要求
        若 all_raw 中仍包含 \n、\r、\t 或多行结构,视为格式错误,必须重新生成。

发表回复