目标分割数据。DAVIS(Densely-Annotated VIdeo Segmentation)数据集是视频目标分割(VOS)任务中最重要的数据集之一。
32像素图片。CIFAR-10包含了10个种类的图片,包括飞机,汽车,鸟.....图片是彩色的。总共60,000个样本。CIFAR-100包含了100个种类,但是总共也只有60,000个样本。
城市街道场景。是关于城市街道场景的语义理解图片数据集。 它主要包含来自50个不同城市的街道场景,拥有5000张在城市环境中驾驶场景的高质量像素级注释图像。此外,它还有20000张粗糙标注的图像。
最大图片集合。大约1500万张图片,2.2万个分类,一般情况下只用子数据集就可以了。。每张都经过了严格的人工标注。数据集还是按照WordNet框架组织的,WordNet模拟的就是人类对事物的识别系统。
图像理解。为了使计算机理解图像,数据集中的图片被划分成一个个区域,每个区域都有与其对应的一句自然语言描述。共108,077张图。
水果蔬菜数据。包含90483张图,131个种类,100像素。
第一视角视频数据集。Facebook和NUS、MIT等高校联合推出3000小时的第一视角视频数据集Ego4D