数据集精选

古诗词数据库

最全诗词集合，唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人，21050首词。

标签：NLP数据

链接直达手机查看

最全诗词集合，唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人，21050首词。

数据统计

相关导航

THUOCL

中文词库分词。是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库，词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点：包含词频统计信息DF值（Document Frequency），方便用户个性化选择使用。词库经过多轮人工筛选，保证词库收录的准确性。开放更新，将不断更新现有词表，并推出更多类别词表。该词库可以用于中文自动分词，提升中文分词效果。

中文语料

大规模中文自然语言处理语料

wikitext

长时依赖词库。包含1亿个词汇的英文词库数据，这些词汇是从Wikipedia的优质文章和标杆文章中提取得到的。每个词汇还同时保留产生该词汇的原始文章，这尤其适合当需要长时依赖(longterm dependency)自然语言建模的场景。

Ego4D

第一视角视频数据集。Facebook和NUS、MIT等高校联合推出3000小时的第一视角视频数据集Ego4D

ImageNet

最大图片集合。大约1500万张图片，2.2万个分类，一般情况下只用子数据集就可以了。。每张都经过了严格的人工标注。数据集还是按照WordNet框架组织的，WordNet模拟的就是人类对事物的识别系统。

MedMNIST v2

医学图像数据集。MedMNIST v2 是一个大规模的 2D 和 3D 医学图像分类数据集，包含 12 个 2D 数据集和 6 个 3D 数据集，其中 2D 数据集有 708069 张图片，3D 数据集有 10214 张图片。数据集包含多种模态（X 光片、视网膜 OCT、超声、CT 等）、多种任务（多分类、二分类、多标签、有序回归），数据集规模从百量级到十万量级不等；

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...