车道数据集。OpenLane 是迄今为止第一个真实世界和规模最大的 3D 车道数据集。我们的数据集从公共感知数据集 Waymo Open Dataset 中收集有价值的内容,并为 1000 个路段提供车道和……
中文词库分词。是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点: 包含词频统计信息DF值(Document Frequency),方便用户个性化选择使用。 词库经过多轮人工筛选,保证词库收录的准确性。 开放更新,将不断更新现有词表,并推出更多类别词表。该词库可以用于中文自动分词,提升中文分词效果。
医学图像数据集。MedMNIST v2 是一个大规模的 2D 和 3D 医学图像分类数据集,包含 12 个 2D 数据集和 6 个 3D 数据集,其中 2D 数据集有 708069 张图片,3D 数据集有 10214 张图片。数据集包含多种模态(X 光片、视网膜 OCT、超声、CT 等)、 多种任务(多分类、二分类、多标签、有序回归), 数据集规模从百量级到十万量级不等;
长时依赖词库。包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到的。每个词汇还同时保留产生该词汇的原始文章,这尤其适合当需要长时依赖(longterm dependency)自然语言建模的场景。
自动驾驶数据。是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。
32像素图片。CIFAR-10包含了10个种类的图片,包括飞机,汽车,鸟.....图片是彩色的。总共60,000个样本。CIFAR-100包含了100个种类,但是总共也只有60,000个样本。
大规模中文自然语言处理语料