Dynamic Spatial Sparsification for Efficient Vision Tra…更多
标签归档: Transformer
论文简记:Expanding Large Pre-trained Unimodal Models with Multimodal Information Injection for Image-Text Multimodal Classification
一篇收录于 CVPR 2022 的文章,它提供了一种图文(多模态)融合的方案,针对的是多模态数据的分类任务。更多
简记:Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet
在 Transformer 主干之前增加了一个 Tokens-to-Token(T2T) 模块,并将 Transformer 主干以「深而窄」的形式重新设计。更多
简记:Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution
一个应对图像超分辨问题(super-resolution,SR)的模型 ACT 更多
简记:Learning Affinity from Attention: End-to-End Weakly-Supervised Semantic Segmentation with Transformers
这是一篇做自然图像弱监督语义分割的论文,利用图像级的类别标签来实现像素级的语义分割。论文收录于 CVPR2022。更多