【ViT】对图片进行分类（论文复现）

4 阅读 0 评论 0 点赞

本文所涉及所有资源均在传知代码平台可获取

Transformer架构虽然已经成为自然语言处理任务的标准，但是它在计算机视觉的应用仍然有限，先前的视觉任务中，注意力大多与卷积结合使用。ViT模型的出现，证明了对CNN的依赖是不必要的，直接应用于图像补丁序列的纯Transformer架构可以在图像分类任务中表现良好

在这里插入图片描述

上述是ViT模型的基本框架，可以大致分为三个主要部分

Patch_embed（将图片分成一系列的patches࿰

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

点赞(0) 打赏