分享
今日arXiv最热NLP大模型论文:做到头了!清华和哈工大把大模型量化做到了1比特
输入“/”快速插入内容
今日arXiv最热NLP大模型论文:做到头了!清华和哈工大把大模型量化做到了1比特
2024年8月12日修改
夕小瑶科技说|
阅读原文
转载请联系原作者取得授权
夕小瑶科技说 原创
作者 | 谢年年
在追求更高效的机器学习模型部署时,模型量化技术应运而生,它通过降低权重矩阵的位宽来显著减少大型语言模型的存储和计算需求。
我们一般的双精度浮点型double是64位,单精度浮点型float是32位。早年RoBERTa等大模型训练时把精度压缩到了16位的半精度FP16。近年来,大语言模型量化一般都只敢玩到4位或8位量化,因为要是把位宽压得太狠,性能就会直线下滑。
最近,清华和哈工大提出了一个名为
OneBit
的
1位量化感知训练框架
把大模型量化做到了1比特,同时保证了时间和空间效率以及模型性能之间的平衡,至少能达到非量化性能的83%,而且训练过程还特别稳定。
OneBit框架采用创新的1比特参数表示方法,精确量化LLM。同时,结合高效的矩阵分解初始化策略——Sign-Value-Independent Decomposition(SVID),显著提升框架收敛速度。通过量化感知知识蒸馏,成功将教师模型的能力迁移至1比特对应模型。
论文标题:
OneBit: Towards Extremely Low-bit Large Language Models
公众号「夕小瑶科技说」后台回复“OneBit”获取论文PDF!
背景知识
量化与剪枝和知识蒸馏(KD)同属于模型压缩的主流方法。模型量化的主要思想是将模型中的每个权重矩阵 从FP32或FP16格式压缩为低比特值。比如经常将transformer中的Linear层的权重矩阵量化为8位、4位,甚至2位。
大多数量化研究主要采用最近舍入(round-to-nearest (RTN))方法,即将权重 舍入到量化网格中的最近值。其数学表达形式可以表示为
从图中可以看出,基于RTN方法的量化在4位时可能会达到最佳性能。进一步压缩,将模型量化至2位值将导致显著下降。
OneBit框架
OneBit框架的核心思想是将LLMs的权重矩阵大胆地量化到1位。1位量化意味着每个权重值只能用1位二进制数表示,即只有两种可能的状态(+1或-1)。同时引入两个FP16格式的值向量以补偿由于量化导致的精度损失。这种设计不仅保持了原始权重矩阵的高秩,而且通过值向量提供了必要的浮点精度,有助于模型的训练和知识迁移。
下图展示了二进制量化线性层与常规的FP16线性层的区别,左侧是原始的FP16线性层,其中激活X和权重矩阵W都是以FP16格式呈现。右侧是本文提出的架构OneBit。只有值向量g和h是以FP16格式呈现,而权重矩阵由±1组成。