diff --git a/2024/08/21/SOR datasets conclude/index.html b/2024/08/21/SOR datasets conclude/index.html index 1c55e95..dcfc960 100644 --- a/2024/08/21/SOR datasets conclude/index.html +++ b/2024/08/21/SOR datasets conclude/index.html @@ -32,8 +32,9 @@ + - + @@ -224,10 +225,16 @@
++截至 2023 年
+
数据库 | +使用的论文 | +创建的论文 | +规模 | +标注类型 | +建库过程 | +其它 | +
---|---|---|---|---|---|---|
360SOD | +Multi-Stage Salient Object Detection in 360° Omnidirectional Image Using Complementary Object-Level Semantic Information ETCI 2023 |
+Distortion-adaptive salient object detection in 360° omnidirectional images TVCG 2020 |
+500张(400张训练图像、100张测试图像) 分辨率512 × 1024 |
+object-level、human fixation | ++ | 第一个全景 SOD 数据集 | +
F-360iSOD | ++ | A FIXATION-BASED 360◦ BENCHMARK DATASET FOR SALIENT OBJECT DETECTION ICIP 2020 |
+107张 1165个显著物体 分辨率512 × 1024 |
+object+instance level | ++ | Jun-Pu/F-360iSOD: A dataset for fixation-based salient object segmentation in 360° images (github.com) | +
360SSOD | +Multi-Stage Salient Object Detection in 360° Omnidirectional Image Using Complementary Object-Level Semantic Information ETCI 2023 |
+Stage-wise salient object detection in 360° omnidirectional image via object-level semantical saliency ranking TVCG 2020 |
+1105张(850张训练图像、255张测试图像) 分辨率546 × 1024 |
+object level | ++ | 360-SSOD/download (github.com) | +
ASOD60K (全景视频) PAVS10K的前身 |
+ASOD60K: An Audio-Induced Salient Object Detection Dataset for Panoramic Videos Arxiv 2021 |
+ASOD60K: An Audio-Induced Salient Object Detection Dataset for Panoramic Videos Arxiv 2021 |
+来自67个全景视频的62,455视频帧,其中10,465个关键帧被赋予了标签 分辨率4K |
+head movement (HM) and eye fixations, bounding boxes, object-level masks, and instance-level labels | ++ | https://github.com/PanoAsh/ASOD60K 视频具有超类和子类 花费一年建立数据集 |
+
ODI-SOD | +View-Aware Salient Object Detection for 360∘ Omnidirectional Image TM 2022 |
+View-Aware Salient Object Detection for 360∘ Omnidirectional Image TM 2022 |
+6263张分辨率不低于2K的RP图像 (从Flickr网站收集的1,151张图片和从YouTube精选的5,112帧视频) 2,000张图片的测试集 4,263张图片的训练集 分辨率不低于2K |
+object level | +1. 使用不同的对象类别关键词(例如,人类、狗、建筑)在Flickr和YouTube上搜索全景资源,参考MS-COCO类别以涵盖各种真实世界场景。收集了8,896张图片和998个视频,包括不同的场景(例如,室内、室外)、不同的场合(例如,旅行、体育)、不同的运动模式(例如,移动、静态)和不同的视角。然后,所有视频都被采样成关键帧,并将不令人满意的图片或帧(例如,没有显著对象、质量低)剔除。 3. 首先,我们要求五位研究人员通过投票来判断对象的显著性,并选择显著的对象。其次,注释方面手动根据选定的显著对象标记二进制遮罩。最后,五位研究人员交叉检查二进制遮罩,以确保准确的像素级对象级注释。 |
+iCVTEAM/ODI-SOD: A 360° omnidirectional image-based salient object detection (SOD) dataset referred to as ODI-SOD with object-level pixel-wise annotation on equirectangular projection (ERP). (github.com) 所选图像的显着区域数量从一个到十个以上,显着区域的面积比从小于0.02%到大于65%,分辨率从2K到8K,一半以上的场景很复杂并且包含不同的对象 |
+
PAVS10K (全景视频) |
+PAV-SOD: A New Task towards Panoramic Audiovisual Saliency Detection ACMMCC 2023 |
+PAV-SOD: A New Task towards Panoramic Audiovisual Saliency Detection ACMMCC 2023 |
+训练视频:40个,共5796帧 测试视频:27个共4669帧 |
+instance level、眼动数据 | +1. 通过使用多个搜索关键词(例如,360°/全景/全向视频,空间音频,环境声学)从YouTube获取,涵盖了各种真实世界动态场景(例如,室内/室外场景)、多种场合(例如,体育、旅行、音乐会、采访、戏剧)、不同的运动模式(例如,静态/移动摄像机)以及多样化的对象类别(例如,人类、乐器、动物) 2. 获得了67个高质量的4K视频序列,手动将视频剪辑成小片段(平均29.6秒),以避免在收集眼动注视点时产生疲劳,总共有62,455帧,记录了62,455 × 40个眼动注视点 3. 所有的视频片段都是通过内置有120 Hz采样率的Tobii眼动追踪器的HTC Vive头戴式显示器(HMD)来展示,并收集眼动注视点。观察者。我们招募了40名参与者(8名女性和32名男性),年龄在18到34岁之间,他们报告说视力正常或矫正到正常。20名参与者被随机选中观看单声道声音的视频(第一组),而其他参与者观看没有声音的视频(第二组) 4. 这67个子类别可以根据主要声源的线索被归类为三个超类别,即说话(例如,对话、独白)、音乐(例如,唱歌、演奏乐器)和杂项(例如,街道上汽车引擎和喇叭的声音、露天环境中的人群噪音) 5. 从总共62,455帧中以1/6的采样率统一提取了10,465帧,用于像素级注释,使用CVAT工具箱进行手动标记 6. 3位资深研究人员参与了基于注视的显著对象的10,465帧的手动注释,最终获得了19,904个实例级显著对象标签 |
+https://github.com/ZHANG-Jun-Pu/PAV-SOD 第一个用于全景视频SOD的数据集 |
+
未发布 (全景视频,SOR) |
+Instance-Level Panoramic Audio-Visual Saliency Detection and Ranking ACMMM 2024 |
+Instance-Level Panoramic Audio-Visual Saliency Detection and Ranking ACMMM 2024 |
++ | instance level | +根据多个观察者的注意力转移为PAVS10K数据集提供了真实的显著性排名 | +未公开 第一个用于全景视频SOR的数据集 |
+