quantization Tag | 风之谷

QLORA：量化LLM的高效微调

一般来说我们平时训练时使用的是32位浮点数（以下简称FP32），但是FP32占用内存较高，如果你的显卡的显存不够大就无法训练了，这时候可以用到量化（Quantization），将FP32压缩到FP16或者FP8以减少内存占用。QLoRA是目前比较流行的量化微调技术，它由微软在23年提出。在阅读了其相关的资料后，接下来分析一下它的核心算法。 LoRA 在分析QLoRA之前，先介绍一下它 ...