A:数据获取:文献资料 可以使用KIMI或者其他AI 对文档PDF 进行处理 成输入输出,若有思维链,可以成为SFT格式。
B:数据采集:对互联网公开数据进行采集,后处理成自己要的格式,也可以使用AI处理数据。
对A、B两种数据对AI进行LORA微调(SFT),即可完成项目需求。
实例:
中医:知识框架以学习教材+病例数据进行微调。
首先 中医的AI微调范例:https://github.com/Zlasejd/HuangDI
中医的数据 SFT LORA :SylvanL/Traditional-Chinese-Medicine-Dataset-SFT · Datasets at HF Mirror