Transformer – hxhen的点滴记录

论文简记：Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks

Dynamic Spatial Sparsification for Efficient Vision Tra…更多

论文简记：Expanding Large Pre-trained Unimodal Models with Multimodal Information Injection for Image-Text Multimodal Classification

一篇收录于 CVPR 2022 的文章，它提供了一种图文（多模态）融合的方案，针对的是多模态数据的分类任务。更多

简记：Tokens-to-Token ViT： Training Vision Transformers from Scratch on ImageNet

在 Transformer 主干之前增加了一个 Tokens-to-Token（T2T）模块，并将 Transformer 主干以「深而窄」的形式重新设计。更多

简记：Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution

一个应对图像超分辨问题（super-resolution，SR）的模型 ACT 更多

简记：Learning Affinity from Attention: End-to-End Weakly-Supervised Semantic Segmentation with Transformers

这是一篇做自然图像弱监督语义分割的论文，利用图像级的类别标签来实现像素级的语义分割。论文收录于 CVPR2022。更多