MovieNet
电影理解。用于电影理解的整体数据集 近年来,视觉理解取得了显着进展。然而,如何理解具有艺术风格的基于故事的长视频,例如电影,仍然具有挑战性。在本文中,我们介绍了 MovieNet——一个用于电影理解的整体数据集。 MovieNet 包含 1,100 部电影,包含大量多模态数据,例如预告片、照片、情节描述等。此外,MovieNet 提供了不同方面的手动标注,包括 110 万个带有边界框和身份的字符、42K 场景边界、 2.5K 对齐的描述句子,65K 地点和动作标签,以及 92K 电影风格标签。据我们所知,MovieNet 是最大的数据集,具有最丰富的注释,可用于全面的电影理解。基于 MovieNet,我们设置了多个基准,用于从不同角度理解电影。在这些基准上进行了广泛的实验,以展示 MovieNet 的不可估量的价值以及当前方法在全面理解电影方面的差距。我们相信这样一个整体的数据集将促进基于故事的长视频理解及其他方面的研究。