系列教程

LoRA 老年情感陪伴微调

Qwen3.5-4B + TRL SFT 10 篇实战，从 JSONL 数据到 vLLM 动态 LoRA 部署

基于 LoRA_Demo 项目的可复现链路：1000 条 JSONL → 单卡 SFT → verify_lora → vLLM 动态 LoRA API。

阅读建议

篇	标题	阶段
01	为什么用 LoRA 做老年情感陪伴 AI	开篇
02	训练集设计：1000 条 JSONL 与老年心理模型	数据
03	LoRA 原理：只训 0.25% 参数	原理
04	Qwen3.5-4B LoRA 微调环境搭建与模型准备	环境
05	单卡 SFT 实战（上）：Tokenizer、基座与 LoRA 配置	训练
06	单卡 SFT 实战（下）：SFTTrainer 与训练循环	训练
07	读懂 LoRA 训练曲线：750 step 实盘复盘	指标
08	LoRA 效果验证：verify_lora.py 原理与 Mac 实测	验证
09	Qwen3.5 踩坑：thinking 链与 flash-attn	踩坑
10	vLLM 部署：动态挂载 LoRA 与 OpenAI 兼容 API	部署

本篇精讲《Qwen3.5-4B LoRA 老年情感陪伴：为什么用 LoRA…》的实现路径与关键配置 → 读完后你能按步骤复现并排查常见问题。本篇讲老年情感场景为何选 LoRA 而非全参 SFT，对比显存、迭代速度与 vLLM 部署成本 →...

本篇精讲《Qwen3.5 LoRA 训练集设计：1000 条 JSONL …》的实现路径与关键配置 → 读完后你能建立全局视图并做技术选型。本篇讲老年陪伴 LoRA 的 JSONL 字段设计、心理模型分层与负样本边界 → 读完后你能写出可...

本篇讲 LoRA 低秩分解、r/alpha/target_modules 含义及与 SFTTrainer 注入关系 → 读完后你能读懂 adapter_config.json 并正确设置 rank。对照 Qwen3.5-4B 单卡 SFT...

本篇精讲《Qwen3.5-4B LoRA 微调环境：PyTorch、TRL…》的实现路径与关键配置 → 读完后你能按步骤复现并排查常见问题。本篇讲 Qwen3.5-4B LoRA 微调的环境依赖、GPU/Metal 选型与 HuggingF...

本篇讲单卡 LoRA SFT 的上半段：tokenizer 对齐、基座加载、LoraConfig 与 prepare_model_for_kbit_training → 读完后你能跑通训练前检查并理解各参数含义。对接 train_lora_...

本篇精讲《Qwen3.5-4B 单卡 LoRA SFT 实战（下）：SFT…》的实现路径与关键配置 → 读完后你能按步骤复现并排查常见问题。本篇讲 SFTConfig、paged_adamw_8bit、Trainer 注入 LoRA 与 c...

本篇精讲《Qwen3.5 LoRA 训练曲线怎么读：750 step 实盘…》的实现路径与关键配置 → 读完后你能按步骤复现并排查常见问题。本篇讲 all_logs.log 四里程碑、train_loss 与逐步 loss 差异及无 eva...

本篇精讲《Qwen3.5 LoRA 效果验证：verify_lora.py…》的实现路径与关键配置 → 读完后你能按步骤复现并排查常见问题。本篇讲 verify_lora.py 的加载、推理与对比基座输出流程，以及在 Mac/Metal 上...

本篇精讲《Qwen3.5 LoRA 踩坑：thinking 链路与 fla…》的实现路径与关键配置 → 读完后你能按步骤复现并排查常见问题。本篇讲 Qwen3.5 thinking 模式、flash-attn 兼容与「像训练失败」的误判场景...

本篇精讲《Qwen3.5 LoRA vLLM 部署：动态挂载 LoRA 与…》的实现路径与关键配置 → 读完后你能完成部署联调并处理典型报错。本篇讲 vLLM 动态 LoRA 挂载、OpenAI 兼容 API 与 max-lora-rank...