如果你希望阅读本文档的中文版本,请点击这里。
If you would like to read the English version of this document, please click Here.
欢迎来到 Awesome-Multimodal-Perception
仓库,这里收集了我在多模态感知领域学习和研究过程中遇到的一系列精彩论文。多模态感知技术是实现人工智能系统感知能力的关键,涵盖了从图像和视频分析到语音和文字理解的广泛技术。这个领域的研究有助于推动机器学习、人机交互、自然语言处理等多个方向的发展。
在这个仓库中,你将找到我认为最有影响力和最具启发性的论文列表,它们分为不同的类型,并附有论文和代码的链接,以及一些精彩的解读,希望能对你的学习和研究有所帮助。
序号 | 类型 | 论文名称 | 作者 | 发表单位 | 期刊/会议 | 论文地址 | 代码地址 | 我的解读 |
---|---|---|---|---|---|---|---|---|
1 | 相机+激光雷达融合 | VirtualPainting: Addressing Sparsity with Virtual Points and Distance-Aware Data Augmentation for 3D Object Detection | Sudip Dhakal,Dominic Carrillo,Deyuan Qu,Michael Nutt,Qing Yang,Song Fu | University of North Texas Denton | 无 | 📄 | 💻 | 🔍 |
2 | Transformer架构 | Swin Transformer: Hierarchical Vision Transformer using Shifted Windows | Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,Stephen Lin,Baining Guo | Microsoft Research Asia | ICCV2021 Best paper | 📄 | 💻 | 🔍 |
3 | 3D目标检测(纯视觉) | UniMODE: Unified Monocular 3D Object Detection | Zhuoling Li, Xiaogang Xu, SerNam Lim, Hengshuang Zhao | The University of Hong Kong、Zhejiang University、University of Central Florida | CVPR2024 | 📄 | 💻 | 🔍 |
4 | 相机+激光雷达融合 | DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection | Yingwei Li, Adams Wei Yu, Tianjian Meng, Ben Caine, Jiquan Ngiam, Daiyi Peng, Junyang Shen, Bo Wu, Yifeng Lu, Denny Zhou, Quoc V. Le, Alan Yuille, Mingxing Tan | Johns Hopkins University、Google | CVPR2022 | 📄 | 💻 | 🔍 |
5 | 3D目标检(纯视觉) | Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors | Haoxuanye Ji,Pengpeng Liang,Erkang Cheng | 郑州大学、Nullmax | CVPR2024 | 📄 | 💻 | 🔍 |
6 | 3D目标检(纯视觉) | Object as Query: Lifting any 2D Object Detector to 3D Detection | Zitian Wang,Zehao Huang,Jiahui Fu,Naiyan Wang,Si Liu | 北京航空航天大学人工智能研究院、图森未来 | ICCV2023 | 📄 | 💻 | 🔍 |
7 | 3D目标检(纯视觉) | MonoCD: Monocular 3D Object Detection with Complementary Depths | Longfei Yan, Pei Yan, Shengzhou Xiong, Xuanyu Xiang, Yihua Tan | 华中科技大学人工智能与自动化学院 | CVPR2024 | 📄 | 💻 | 🔍 |
8 | 相机+激光雷达+雷达融合 | FUTR3D: A Unified Sensor Fusion Framework for 3D Detection | Xuanyao Chen,Tianyuan Zhang,Yue Wang,Yilun Wang,Hang Zhao | 上海期智研究院、复旦大学、CMU、清华大学、MIT、Li Auto | 无 | 📄 | 💻 | 🔍 |
9 | 相机+激光雷达融合 | BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation | Zhijian Liu, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela Rus, Song Han | MIT、上海交通大学 | ICRA 2023 | 📄 | 💻 | 🔍 |
10 | 3D目标检测(纯视觉) | Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion | Xuewu Lin, Tianwei Lin, Zixiang Pei, Lichao Huang, Zhizhong Su | 地平线 | 无 | 📄 | 💻 | 🔍 |
11 | 相机+激光雷达融合 | SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection | Hongcheng Zhang, Liu Liang, Pengxin Zeng, Xiao Song, Zhe Wang | 商汤科技、四川大学 | 无 | 📄 | 💻 | 🔍 |
12 | 3D目标检(纯视觉) | HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras | Zhongyu Xia, ZhiWei Lin, Xinhao Wang, Yongtao Wang, Yun Xing, Shengxiang Qi, Nan Dong, Ming-Hsuan Yang | 北京大学王选所、长安汽车、加利福尼亚大学 | 无 | 📄 | 💻 | 🔍 |
13 | 相机+激光雷达融合 | Cross Modal Transformer: Towards Fast and Robust 3D Object Detection | Junjie Yan, Yingfei Liu, Jianjian Sun, Fan Jia, Shuailin Li, Tiancai Wang, Xiangyu Zhang | 旷视科技 | ICCV2023 | 📄 | 💻 | 🔍 |
14 | 相机+激光雷达融合 | SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object Detection | Yichen Xie, Chenfeng Xu, Marie-Julie Rakotosaona, Patrick Rim, Federico Tombari, Kurt Keutzer, Masayoshi Tomizuka, Wei Zhan | 加州大学伯克利分校、Google、加州理工学院 | ICCV2023 | 📄 | 💻 | 🔍 |
15 | Mamba架构 | Mamba: Linear-Time Sequence Modeling with Selective State Spaces | Albert Gu,Tri Dao | 卡内基梅隆大学、普林斯顿大学 | 无 | 📄 | 💻 | 🔍 |
16 | Mamba架构 | Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model | Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, Xinggang Wang | 华中科技大学、地平线机器人、北京人工智能研究院 | ICML2024 | 📄 | 💻 | 🔍 |
17 | Mamba架构 | MambaOut: Do We Really Need Mamba for Vision? | Weihao Yu, Xinchao Wang | 新加坡国立大学 | 无 | 📄 | 💻 | 🔍 |
18 | 相机+激光雷达融合 | IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection | Junbo Yin, Jianbing Shen, Runnan Chen, Wei Li, Ruigang Yang, Pascal Frossard, Wenguan Wang | 北京理工大学、澳门大学、香港大学、嬴彻科技、洛桑联邦理工学院、浙江大学 | CVPR2024 | 📄 | 💻 | 🔍 |
19 | 开放词汇分割 | GroupViT: Semantic Segmentation Emerges from Text Supervision | Jiarui Xu, Shalini De Mello, Sifei Liu, Wonmin Byeon, Thomas Breuel, Jan Kautz, Xiaolong Wang | 加州大学圣地亚哥分校、NVIDIA | CVPR2022 | 📄 | 💻 | 🔍 |
20 | 开放词汇分割 | Side Adapter Network for Open-Vocabulary Semantic Segmentation | Mengde Xu,Zheng Zhang,Fangyun Wei,Han Hu,Xiang Bai | 华中科技大学、微软亚洲研究院 | CVPR2023 Highlight | 📄 | 💻 | 🔍 |
21 | 大语言模型 | LLaMA: Open and Efficient Foundation Language Models | Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample | Meta AI | 无 | 📄 | 💻 | 🔍 |
22 | 3D分割 | Segment Anything in 3D with Radiance Fields | Jiazhong Cen, Jiemin Fang, Zanwei Zhou, Chen Yang, Lingxi Xie, Xiaopeng Zhang, Wei Shen, Qi Tian | 上海交通大学、华为公司、华中科技大学启蒙学院 . | NeurIPS 2023 | 📄 | 💻 | 🔍 |
... | ... | ... | ... | ... | ... | ... | ... | ... |
这个项目欢迎任何形式的贡献,无论是新增论文、提供解读、添加代码链接,还是改进仓库的结构。如果你有任何想法或资源希望分享,请通过 issue 或者 pull request 的方式提交。
感谢所有在多模态感知领域做出贡献的研究者和开发者。你们的工作极大地推动了这个领域的进步,并为我们提供了丰富的学习资源。
希望这个仓库能成为你多模态感知学习和研究旅程中的宝贵资源。如果你觉得这里的内容对你有帮助,欢迎给予星标支持!