论文阅读 - i栋日志

论文阅读

Multiscale Vision Transformer阅读笔记

前言传统的Transformer在整个网络中会保持分辨率和通道数，本文提出了一种多尺度ViT模型，通过在网络中逐级地增加通道数，同时降低时空分辨率的手段来形成一……

2024-09-22 卢利栋

0 0

论文阅读

概述传统的语义分割任务使用全卷积神经网络FCN来实现。FCN采用Encoder-Decoder结构，其中Encoder负责学习输入图像的特征表示，Decoder负责对特征表示进行像素……

2024-09-12 卢利栋

0 0

论文阅读

背景传统的目标检测方法通常采用非直接的方法来实现，通常需要设计一种方法在一大堆建议集中通过代理回归和分类的方式来找到目标框和目标类别。但是这种方法……

2024-09-11 卢利栋

0 0

论文阅读

概述自注意力结构的Transformer网络在NLP领域已经成为了事实上的霸主，但是在CV领域，应用仍然非常有限。目前的研究主要是集中在两个方面，一是将Self-Attent……

2024-09-10 卢利栋

0 0