最全诗词集合,唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。
中文词库分词。是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点: 包含词频统计信息DF值(Document Frequency),方便用户个性化选择使用。 词库经过多轮人工筛选,保证词库收录的准确性。 开放更新,将不断更新现有词表,并推出更多类别词表。该词库可以用于中文自动分词,提升中文分词效果。
长时依赖词库。包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到的。每个词汇还同时保留产生该词汇的原始文章,这尤其适合当需要长时依赖(longterm dependency)自然语言建模的场景。
大规模中文自然语言处理语料
最大多语言语音数据集。据说是最大的。这一数据集共涵盖了23种语言,时长超过40万小时。 其中,每种语言都有9000到18000小时的无标签语音数据。 此外,还包括了共1800小时,16种语言的转录语音数据,以及17300小时,15种目标语言的口译语音数据。
自动驾驶数据。是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。
最大图片集合。大约1500万张图片,2.2万个分类,一般情况下只用子数据集就可以了。。每张都经过了严格的人工标注。数据集还是按照WordNet框架组织的,WordNet模拟的就是人类对事物的识别系统。