物体数据集,包含大量高质量真实扫描的 3D 物体,旨在促进现实世界中 3D 感知、重建和生成技术的发展。每个物体都通过 2D 和 3D 传感器捕获,提供纹理网格、点云、多视角渲染图像以……
水果蔬菜数据。包含90483张图,131个种类,100像素。
城市街道场景。是关于城市街道场景的语义理解图片数据集。 它主要包含来自50个不同城市的街道场景,拥有5000张在城市环境中驾驶场景的高质量像素级注释图像。此外,它还有20000张粗糙标注的图像。
1万条中文语音。包含了1万余条语音文件,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。它是由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库。
门牌号码图片。SVHN(Street View House Number)Dateset 来源于谷歌街景中的门牌号码。训练集图片73257张,测试集26032张
长时依赖词库。包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到的。每个词汇还同时保留产生该词汇的原始文章,这尤其适合当需要长时依赖(longterm dependency)自然语言建模的场景。
电影理解。用于电影理解的整体数据集 近年来,视觉理解取得了显着进展。然而,如何理解具有艺术风格的基于故事的长视频,例如电影,仍然具有挑战性。在本文中,我们介绍了 MovieNet——一个用于电影理解的整体数据集。 MovieNet 包含 1,100 部电影,包含大量多模态数据,例如预告片、照片、情节描述等。此外,MovieNet 提供了不同方面的手动标注,包括 110 万个带有边界框和身份的字符、42K 场景边界、 2.5K 对齐的描述句子,65K 地点和动作标签,以及 92K 电影风格标签。据我们所知,MovieNet 是最大的数据集,具有最丰富的注释,可用于全面的电影理解。基于 MovieNet,我们设置了多个基准,用于从不同角度理解电影。在这些基准上进行了广泛的实验,以展示 MovieNet 的不可估量的价值以及当前方法在全面理解电影方面的差距。我们相信这样一个整体的数据集将促进基于故事的长视频理解及其他方面的研究。