论文地址:https://arxiv.org/pdf/1706.03762

1. 整体结构

2. 内部结构

3. 公式

Transformer工作原理四部曲Embedding(向量化)、Attention(注意力机制)、MLPs(多层感知机)和Unembedding(模型输出)。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部