蛋白质结构。98.5%的人类蛋白质结构被Google AlphaFold2预测出来了! 而且还做成了数据集,全部免费开放!
医学图像数据集。MedMNIST v2 是一个大规模的 2D 和 3D 医学图像分类数据集,包含 12 个 2D 数据集和 6 个 3D 数据集,其中 2D 数据集有 708069 张图片,3D 数据集有 10214 张图片。数据集包含多种模态(X 光片、视网膜 OCT、超声、CT 等)、 多种任务(多分类、二分类、多标签、有序回归), 数据集规模从百量级到十万量级不等;
自动驾驶数据。是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。
1万条中文语音。包含了1万余条语音文件,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。它是由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库。
最大自动驾驶数据集。包括了1000万张无标注图片以及2万张带标注图片。SODA10M数据集收集了不同城市在不同天气条件、时间段以及位置的场景。 晴天雨天、白天夜晚、城市高速园区…… 更重要的是,覆盖面很广。 1000万张无标注图片来自32个城市,囊括了国内大部分地区。
图像理解。为了使计算机理解图像,数据集中的图片被划分成一个个区域,每个区域都有与其对应的一句自然语言描述。共108,077张图。
水果蔬菜数据。包含90483张图,131个种类,100像素。