QLORA:量化LLM的高效微调

一般来说我们平时训练时使用的是32位浮点数(以下简称FP32),但是FP32占用内存较高,如果你的显卡的显存不够大就无法训练了,这时候可以用到量化(Quantization),将FP32压缩到FP16或者FP8以减少内存占用。QLoRA是目前比较流行的量化微调技术,它由微软在23年提出。在阅读了其相关的资料后,接下来分析一下它的核心算法。 LoRA 在分析QLoRA之前,先介绍一下它 ...