数据集精选

THUOCL

中文词库分词。是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库，词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点：包含……

标签：NLP数据

链接直达手机查看

中文词库分词。是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库，词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点：包含词频统计信息DF值（Document Frequency），方便用户个性化选择使用。词库经过多轮人工筛选，保证词库收录的准确性。开放更新，将不断更新现有词表，并推出更多类别词表。该词库可以用于中文自动分词，提升中文分词效果。

数据统计

相关导航

古诗词数据库

最全诗词集合，唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人，21050首词。

wikitext

长时依赖词库。包含1亿个词汇的英文词库数据，这些词汇是从Wikipedia的优质文章和标杆文章中提取得到的。每个词汇还同时保留产生该词汇的原始文章，这尤其适合当需要长时依赖(longterm dependency)自然语言建模的场景。

中文语料

大规模中文自然语言处理语料

OpenLane

车道数据集。OpenLane 是迄今为止第一个真实世界和规模最大的 3D 车道数据集。我们的数据集从公共感知数据集 Waymo Open Dataset 中收集有价值的内容，并为 1000 个路段提供车道和最近路径对象（CIPO）注释。简而言之，OpenLane 拥有 200K 帧和超过 880K 仔细注释的车道。我们公开发布了 OpenLane 数据集，以帮助研究界在 3D 感知和自动驾驶技术方面取得进步。

Fruit-Images-Dataset

水果蔬菜数据。包含90483张图，131个种类，100像素。

MovieNet

电影理解。用于电影理解的整体数据集近年来，视觉理解取得了显着进展。然而，如何理解具有艺术风格的基于故事的长视频，例如电影，仍然具有挑战性。在本文中，我们介绍了 MovieNet——一个用于电影理解的整体数据集。 MovieNet 包含 1,100 部电影，包含大量多模态数据，例如预告片、照片、情节描述等。此外，MovieNet 提供了不同方面的手动标注，包括 110 万个带有边界框和身份的字符、42K 场景边界、 2.5K 对齐的描述句子，65K 地点和动作标签，以及 92K 电影风格标签。据我们所知，MovieNet 是最大的数据集，具有最丰富的注释，可用于全面的电影理解。基于 MovieNet，我们设置了多个基准，用于从不同角度理解电影。在这些基准上进行了广泛的实验，以展示 MovieNet 的不可估量的价值以及当前方法在全面理解电影方面的差距。我们相信这样一个整体的数据集将促进基于故事的长视频理解及其他方面的研究。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...