【ViT】对图片进行分类(论文复现)

本文所涉及所有资源均在传知代码平台可获取

概述

Transformer架构虽然已经成为自然语言处理任务的标准,但是它在计算机视觉的应用仍然有限,先前的视觉任务中,注意力大多与卷积结合使用。ViT模型的出现,证明了对CNN的依赖是不必要的,直接应用于图像补丁序列的纯Transformer架构可以在图像分类任务中表现良好

模型结构
模型总体框架

在这里插入图片描述

上述是ViT模型的基本框架,可以大致分为三个主要部分

  • Patch_embed(将图片分成一系列的patches࿰

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部