Awesome-Multimodal-Perception 🌈

如果你希望阅读本文档的中文版本，请点击这里。

If you would like to read the English version of this document, please click Here.

欢迎来到 Awesome-Multimodal-Perception 仓库，这里收集了我在多模态感知领域学习和研究过程中遇到的一系列精彩论文。多模态感知技术是实现人工智能系统感知能力的关键，涵盖了从图像和视频分析到语音和文字理解的广泛技术。这个领域的研究有助于推动机器学习、人机交互、自然语言处理等多个方向的发展。

在这个仓库中，你将找到我认为最有影响力和最具启发性的论文列表，它们分为不同的类型，并附有论文和代码的链接，以及一些精彩的解读，希望能对你的学习和研究有所帮助。

📖 论文列表

序号	类型	论文名称	作者	发表单位	期刊/会议	论文地址	代码地址	我的解读
1	相机+激光雷达融合	VirtualPainting: Addressing Sparsity with Virtual Points and Distance-Aware Data Augmentation for 3D Object Detection	Sudip Dhakal,Dominic Carrillo,Deyuan Qu,Michael Nutt,Qing Yang,Song Fu	University of North Texas Denton	无	📄	💻	🔍
2	Transformer架构	Swin Transformer: Hierarchical Vision Transformer using Shifted Windows	Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,Stephen Lin,Baining Guo	Microsoft Research Asia	ICCV2021 Best paper	📄	💻	🔍
3	3D目标检测（纯视觉）	UniMODE: Unified Monocular 3D Object Detection	Zhuoling Li, Xiaogang Xu, SerNam Lim, Hengshuang Zhao	The University of Hong Kong、Zhejiang University、University of Central Florida	CVPR2024	📄	💻	🔍
4	相机+激光雷达融合	DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection	Yingwei Li, Adams Wei Yu, Tianjian Meng, Ben Caine, Jiquan Ngiam, Daiyi Peng, Junyang Shen, Bo Wu, Yifeng Lu, Denny Zhou, Quoc V. Le, Alan Yuille, Mingxing Tan	Johns Hopkins University、Google	CVPR2022	📄	💻	🔍
5	3D目标检(纯视觉)	Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors	Haoxuanye Ji,Pengpeng Liang,Erkang Cheng	郑州大学、Nullmax	CVPR2024	📄	💻	🔍
6	3D目标检(纯视觉)	Object as Query: Lifting any 2D Object Detector to 3D Detection	Zitian Wang,Zehao Huang,Jiahui Fu,Naiyan Wang,Si Liu	北京航空航天大学人工智能研究院、图森未来	ICCV2023	📄	💻	🔍
7	3D目标检(纯视觉)	MonoCD: Monocular 3D Object Detection with Complementary Depths	Longfei Yan, Pei Yan, Shengzhou Xiong, Xuanyu Xiang, Yihua Tan	华中科技大学人工智能与自动化学院	CVPR2024	📄	💻	🔍
8	相机+激光雷达+雷达融合	FUTR3D: A Unified Sensor Fusion Framework for 3D Detection	Xuanyao Chen,Tianyuan Zhang,Yue Wang,Yilun Wang,Hang Zhao	上海期智研究院、复旦大学、CMU、清华大学、MIT、Li Auto	无	📄	💻	🔍
9	相机+激光雷达融合	BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation	Zhijian Liu, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela Rus, Song Han	MIT、上海交通大学	ICRA 2023	📄	💻	🔍
10	3D目标检测（纯视觉）	Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion	Xuewu Lin, Tianwei Lin, Zixiang Pei, Lichao Huang, Zhizhong Su	地平线	无	📄	💻	🔍
11	相机+激光雷达融合	SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection	Hongcheng Zhang, Liu Liang, Pengxin Zeng, Xiao Song, Zhe Wang	商汤科技、四川大学	无	📄	💻	🔍
12	3D目标检(纯视觉)	HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras	Zhongyu Xia, ZhiWei Lin, Xinhao Wang, Yongtao Wang, Yun Xing, Shengxiang Qi, Nan Dong, Ming-Hsuan Yang	北京大学王选所、长安汽车、加利福尼亚大学	无	📄	💻	🔍
13	相机+激光雷达融合	Cross Modal Transformer: Towards Fast and Robust 3D Object Detection	Junjie Yan, Yingfei Liu, Jianjian Sun, Fan Jia, Shuailin Li, Tiancai Wang, Xiangyu Zhang	旷视科技	ICCV2023	📄	💻	🔍
14	相机+激光雷达融合	SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object Detection	Yichen Xie, Chenfeng Xu, Marie-Julie Rakotosaona, Patrick Rim, Federico Tombari, Kurt Keutzer, Masayoshi Tomizuka, Wei Zhan	加州大学伯克利分校、Google、加州理工学院	ICCV2023	📄	💻	🔍
15	Mamba架构	Mamba: Linear-Time Sequence Modeling with Selective State Spaces	Albert Gu,Tri Dao	卡内基梅隆大学、普林斯顿大学	无	📄	💻	🔍
16	Mamba架构	Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model	Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, Xinggang Wang	华中科技大学、地平线机器人、北京人工智能研究院	ICML2024	📄	💻	🔍
17	Mamba架构	MambaOut: Do We Really Need Mamba for Vision?	Weihao Yu, Xinchao Wang	新加坡国立大学	无	📄	💻	🔍
18	相机+激光雷达融合	IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection	Junbo Yin, Jianbing Shen, Runnan Chen, Wei Li, Ruigang Yang, Pascal Frossard, Wenguan Wang	北京理工大学、澳门大学、香港大学、嬴彻科技、洛桑联邦理工学院、浙江大学	CVPR2024	📄	💻	🔍
19	开放词汇分割	GroupViT: Semantic Segmentation Emerges from Text Supervision	Jiarui Xu, Shalini De Mello, Sifei Liu, Wonmin Byeon, Thomas Breuel, Jan Kautz, Xiaolong Wang	加州大学圣地亚哥分校、NVIDIA	CVPR2022	📄	💻	🔍
20	开放词汇分割	Side Adapter Network for Open-Vocabulary Semantic Segmentation	Mengde Xu,Zheng Zhang,Fangyun Wei,Han Hu,Xiang Bai	华中科技大学、微软亚洲研究院	CVPR2023 Highlight	📄	💻	🔍
21	大语言模型	LLaMA: Open and Efficient Foundation Language Models	Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample	Meta AI	无	📄	💻	🔍
22	3D分割	Segment Anything in 3D with Radiance Fields	Jiazhong Cen, Jiemin Fang, Zanwei Zhou, Chen Yang, Lingxi Xie, Xiaopeng Zhang, Wei Shen, Qi Tian	上海交通大学、华为公司、华中科技大学启蒙学院 .	NeurIPS 2023	📄	💻	🔍
...	...	...	...	...	...	...	...	...

🤝 如何贡献

这个项目欢迎任何形式的贡献，无论是新增论文、提供解读、添加代码链接，还是改进仓库的结构。如果你有任何想法或资源希望分享，请通过 issue 或者 pull request 的方式提交。

🌟 致谢

感谢所有在多模态感知领域做出贡献的研究者和开发者。你们的工作极大地推动了这个领域的进步，并为我们提供了丰富的学习资源。

希望这个仓库能成为你多模态感知学习和研究旅程中的宝贵资源。如果你觉得这里的内容对你有帮助，欢迎给予星标支持！

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
English.md		English.md
README.md		README.md
add.py		add.py
auto.sh		auto.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Awesome-Multimodal-Perception 🌈

📖 论文列表

🤝 如何贡献

🌟 致谢

About

Releases

Packages

Languages

colorfulandcjy0806/Awesome-Multimodal-Perception

Folders and files

Latest commit

History

Repository files navigation

Awesome-Multimodal-Perception 🌈

📖 论文列表

🤝 如何贡献

🌟 致谢

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages