在学习大模型训练库unsloth时看到和FlashAttention的对比,因为之前也听说过,感觉这个技术还挺火的,所以趁这个机会研究一下。 现今的模型基本上基于transformer,模型变的越来越大,越来越深,但是扩展序列长度却还是很困难。因为其核心自注意力模块的内存和时间复杂度对于序列长度是平方级别的。 在FlashAttention之前,业界的主流方案是减少计算量,而没有关注内存的 ...
在学习大模型训练库unsloth时看到和FlashAttention的对比,因为之前也听说过,感觉这个技术还挺火的,所以趁这个机会研究一下。 现今的模型基本上基于transformer,模型变的越来越大,越来越深,但是扩展序列长度却还是很困难。因为其核心自注意力模块的内存和时间复杂度对于序列长度是平方级别的。 在FlashAttention之前,业界的主流方案是减少计算量,而没有关注内存的 ...