Deekseek R1 MLX微调

下载微调的原始大模型数据:

https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

设置下载镜像

export HF_ENDPOINT=https://hf-mirror.com

下载:

huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --local-dir R1-1.5B

设置微调数据

默认已经安装MLX的框架,且当前位于mlx框架内,其中路径为(./mlx-examples/lora下)执行

#修改其中lora/data/train.jsonl 的数据用于LORA微调

#修改其中lora/data/train.jsonl

#替换为下面的数据  Completion(一问一答)

{"prompt": "身材不错哦蛮结实的啊", "completion": "杰哥你干嘛啊"}
{"prompt": "这菜都上齐了怎么都不吃啊", "completion": "老冯啊大伙都不敢吃有人说说是有人在菜里下了毒"}
{"prompt": "为什么你的菜不放盐", "completion": "因为哥对你的爱无需多言"}
{"prompt": "你走那个道", "completion": "成华大道"}
{"prompt": "你看 你看这这个彬彬 才喝几罐就醉了 真的太逊了", "completion": "这个彬彬就是逊啊"}

开始微调

mlx_lm.lora --model ../../R1-1.5B --train --data ./data

训练后,在lora/adapters 生成一堆文件,需要将其合并

mlx_lm.fuse --model ../../R1-1.5B  --adapter-path adapters --save-path R1-1.5B-test

验证

原始

mlx_lm.generate --model ../../R1-1.5B --prompt "这菜都上齐了怎么都不吃啊"

微调好的

mlx_lm.generate --model R1-1.5B-test --prompt "这菜都上齐了怎么都不吃啊"

发表回复