数据集精选

MovieNet

电影理解。用于电影理解的整体数据集 近年来,视觉理解取得了显着进展。然而,如何理解具有艺术风格的基于故事的长视频,例如电影,仍然具有挑战性。在本文中,我们介绍了 MovieNet……

广告也精彩
电影理解。用于电影理解的整体数据集 近年来,视觉理解取得了显着进展。然而,如何理解具有艺术风格的基于故事的长视频,例如电影,仍然具有挑战性。在本文中,我们介绍了 MovieNet——一个用于电影理解的整体数据集。 MovieNet 包含 1,100 部电影,包含大量多模态数据,例如预告片、照片、情节描述等。此外,MovieNet 提供了不同方面的手动标注,包括 110 万个带有边界框和身份的字符、42K 场景边界、 2.5K 对齐的描述句子,65K 地点和动作标签,以及 92K 电影风格标签。据我们所知,MovieNet 是最大的数据集,具有最丰富的注释,可用于全面的电影理解。基于 MovieNet,我们设置了多个基准,用于从不同角度理解电影。在这些基准上进行了广泛的实验,以展示 MovieNet 的不可估量的价值以及当前方法在全面理解电影方面的差距。我们相信这样一个整体的数据集将促进基于故事的长视频理解及其他方面的研究。

数据统计

相关导航

ForgeryNet
ForgeryNet

伪造检测。真实感合成技术的快速发展已经达到了一个临界点,真实图像和操纵图像之间的边界开始模糊。因此,基准测试和推进数字伪造分析已成为一个紧迫的问题。然而,现有的人脸伪造数据集要么多样性有限,要么只支持粗粒度分析。为了应对这种新出现的威胁,我们构建了 ForgeryNet 数据集,这是一个非常大的人脸伪造数据集,在图像和视频级数据中具有统一的注释,跨越四个任务:1)图像伪造分类,包括双向(真/假)、三个-way(真/假,带有身份替换的伪造方法/带有身份保留的伪造方法的假)和 n-way(真实和 15 种各自的伪造方法)分类。 2)空间伪造定位,将伪造图像的操纵区域与其相应的源真实图像进行分割。 3)视频伪造分类,它重新定义了视频级别的伪造分类,其中操纵帧位于随机位置。这项任务很重要,因为现实世界中的攻击者可以自由地操纵任何目标帧。 4) Temporal Forgery Localization,对被操作的时间段进行定位。 ForgeryNet 在数据规模(290 万张图像,221,247 个视频)、操作(7 个图像级方法、8 个视频级方法)、扰动(36 个独立和更多混合扰动)方面是迄今为止最大的公开可用的深度人脸伪造数据集) 和注释(630 万个分类标签、290 万个操作区域注释和 221,247 个临时伪造片段标签)。我们对现有的人脸取证方法进行了广泛的基准测试和研究,并获得了一些有价值的观察结果。

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...