ACL 2024

1 intro

  • 基于 Transformer 的大模型一般都有很多层
    • 在广泛采用的 PEFT 技术(包括 Adapters 和 LoRA)中,尤其是在深层中,也存在过度平滑现象(即token之间的相似度很高)
  • 论文评估了同一语句中 token 之间的余弦相似性以检测过平滑现象
    • 给定一个包含m个 token的句子(h1,h2,....hm),其token间余弦相似性为
    • 结果如下:
      • 随着模型层数的增加,token之间越来越像了

  • ——>论文提出了 SIBO
    • 通过在 PEFT 模块(adapter/LORA)的输入中注入初始残差,减少了 Transformer 模型中的过平滑问题

2 方法

3 结果

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部