基于协同注意力的视觉-语言嵌入用于机器人手术视觉问题定位回答

54 阅读 0 评论 0 点赞

文章目录

CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery

CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery

摘要

医学生和初级外科医生经常依赖于资深外科医生和专家来回答他们在学习手术过程中的问题,但专家通常忙于临床和学术工作,很难提供指导。
现有基于深度学习的外科视觉问题回答(VQA)系统只能提供简单的答案,而无法给出答案的位置信息。同时,视觉-语言(ViL)嵌入在这类任务中也鲜有研究。
因此,一个能够提供视觉问题定位回答(VQLA)的系统对于医学生和初级外科医生学习和理解手术视频会很有帮助。
论文提出了一种基于端到端Transformer的CAT-ViL (Co-Attention gaTed Vision-Language)嵌入模型用于外科VQLA任务,不需要通过检测模型进行特征提取。
代码地址

方法

在这里插入图片描述

实验结果

在这里插入图片描述

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

转载请注明出处：免费源码网-免费的源码资源网站 » 基于协同注意力的视觉-语言嵌入用于机器人手术视觉问题定位回答

点赞(0) 打赏

本文分类：文章资讯
本文标签：基于协同注意力的视觉-语言嵌入用于机器人手术视觉问题定位回答
浏览次数：54 次浏览
本文链接：https://freeymw.com/article/10606.html

上一篇 > C# String
下一篇 > 基于协同注意力的视觉-语言嵌入用于机器人手术视觉问题定位回答

评论列表共有 0 条评论

暂无评论

发表评论取消回复

微信公众账号

微信扫一扫加关注

发表
评论返回
顶部