物体数据集,包含大量高质量真实扫描的 3D 物体,旨在促进现实世界中 3D 感知、重建和生成技术的发展。每个物体都通过 2D 和 3D 传感器捕获,提供纹理网格、点云、多视角渲染图像以……
城市街道场景。是关于城市街道场景的语义理解图片数据集。 它主要包含来自50个不同城市的街道场景,拥有5000张在城市环境中驾驶场景的高质量像素级注释图像。此外,它还有20000张粗糙标注的图像。
场景图片。包含10个场景类别,例如卧室、固房、客厅、教室等场景图像。每类场景大约有120,000至3,000,000张图片。
85小时汉语集。可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。
最大图片集合。大约1500万张图片,2.2万个分类,一般情况下只用子数据集就可以了。。每张都经过了严格的人工标注。数据集还是按照WordNet框架组织的,WordNet模拟的就是人类对事物的识别系统。
车道数据集。OpenLane 是迄今为止第一个真实世界和规模最大的 3D 车道数据集。我们的数据集从公共感知数据集 Waymo Open Dataset 中收集有价值的内容,并为 1000 个路段提供车道和最近路径对象(CIPO)注释。简而言之,OpenLane 拥有 200K 帧和超过 880K 仔细注释的车道。我们公开发布了 OpenLane 数据集,以帮助研究界在 3D 感知和自动驾驶技术方面取得进步。
电影理解。用于电影理解的整体数据集 近年来,视觉理解取得了显着进展。然而,如何理解具有艺术风格的基于故事的长视频,例如电影,仍然具有挑战性。在本文中,我们介绍了 MovieNet——一个用于电影理解的整体数据集。 MovieNet 包含 1,100 部电影,包含大量多模态数据,例如预告片、照片、情节描述等。此外,MovieNet 提供了不同方面的手动标注,包括 110 万个带有边界框和身份的字符、42K 场景边界、 2.5K 对齐的描述句子,65K 地点和动作标签,以及 92K 电影风格标签。据我们所知,MovieNet 是最大的数据集,具有最丰富的注释,可用于全面的电影理解。基于 MovieNet,我们设置了多个基准,用于从不同角度理解电影。在这些基准上进行了广泛的实验,以展示 MovieNet 的不可估量的价值以及当前方法在全面理解电影方面的差距。我们相信这样一个整体的数据集将促进基于故事的长视频理解及其他方面的研究。