当时我们在 CA-LoRA 论文中有给到一个结论是:
量化模型 通过 peft 往 原模型 对齐时,peft 使用 增加ReLU 的 LoRA 会比普通的 LoRA 效果好
最近尝试在通用任务上 apply 这个方法,也即没有任务 LoRA,只有 Recovery Module,纯跑蒸馏
简单做了一些测试,感觉这个结论依然是成立的
另外就是有一个想法是,lora 可能可以用来避免模型蒸馏时 lm loss 过拟合到蒸馏数据集上,或者一些不希望模型变化太大的场景。
虽然存在的一个问题是现在大部分框架只支持传统的 LoRA,中间带 ReLU 的一般都需要去 hack 代码。但是实测下来不会对时间产生什么影响