检测图内中文。
门牌号码图片。SVHN(Street View House Number)Dateset 来源于谷歌街景中的门牌号码。训练集图片73257张,测试集26032张
图像理解。为了使计算机理解图像,数据集中的图片被划分成一个个区域,每个区域都有与其对应的一句自然语言描述。共108,077张图。
识别图中文字。
人脸识别。包含了来源于互联网的13233张来自5749个人的人脸图片,其中有1680个人至少有2张图片。
第一视角视频数据集。Facebook和NUS、MIT等高校联合推出3000小时的第一视角视频数据集Ego4D
手写数字图片。训练集样本60,000个,测试集样本10,000个。由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局的工作人员。