论文笔记：SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning

15 阅读 0 评论 0 点赞

ACL 2024

1 intro

基于 Transformer 的大模型一般都有很多层
- 在广泛采用的 PEFT 技术（包括 Adapters 和 LoRA）中，尤其是在深层中，也存在过度平滑现象（即token之间的相似度很高）
论文评估了同一语句中 token 之间的余弦相似性以检测过平滑现象
- 给定一个包含m个 token的句子(h1,h2,....hm)，其token间余弦相似性为
- 结果如下：
  - 随着模型层数的增加，token之间越来越像了

——>论文提出了 SIBO
- 通过在 PEFT 模块（adapter/LORA）的输入中注入初始残差，减少了 Transformer 模型中的过平滑问题

2 方法

3 结果

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

转载请注明出处：免费源码网-免费的源码资源网站 » 论文笔记：SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning

点赞(0) 打赏

本文分类：文章资讯
本文标签：论文笔记：SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning
浏览次数：15 次浏览
本文链接：https://freeymw.com/article/33936.html

上一篇 > Anchor DETR论文笔记
下一篇 > Windows安装PM2 注意事项与错误查改

评论列表共有 0 条评论

暂无评论

发表评论取消回复

微信公众账号

微信扫一扫加关注

发表
评论返回
顶部