ACL 2024
1 intro
- 基于 Transformer 的大模型一般都有很多层
- 在广泛采用的 PEFT 技术(包括 Adapters 和 LoRA)中,尤其是在深层中,也存在过度平滑现象(即token之间的相似度很高)
- 论文评估了同一语句中 token 之间的余弦相似性以检测过平滑现象
- 给定一个包含m个 token的句子(h1,h2,....hm),其token间余弦相似性为
- 结果如下:
- 随着模型层数的增加,token之间越来越像了
- ——>论文提出了 SIBO
- 通过在 PEFT 模块(adapter/LORA)的输入中注入初始残差,减少了 Transformer 模型中的过平滑问题
2 方法
3 结果
本站资源均来自互联网,仅供研究学习,禁止违法使用和商用,产生法律纠纷本站概不负责!如果侵犯了您的权益请与我们联系!
转载请注明出处: 免费源码网-免费的源码资源网站 » 论文笔记:SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning
发表评论 取消回复