AINav.net 一个属于AI人的导航网站

最全诗词集合，唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人，21050首词。

长时依赖词库。包含1亿个词汇的英文词库数据，这些词汇是从Wikipedia的优质文章和标杆文章中提取得到的。每个词汇还同时保留产生该词汇的原始文章，这尤其适合当需要长时依赖(longterm dependency)自然语言建模的场景。

中文词库分词。是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库，词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点：包含词频统计信息DF值（Document Frequency），方便用户个性化选择使用。词库经过多轮人工筛选，保证词库收录的准确性。开放更新，将不断更新现有词表，并推出更多类别词表。该词库可以用于中文自动分词，提升中文分词效果。

ForgeryNet

伪造检测。真实感合成技术的快速发展已经达到了一个临界点，真实图像和操纵图像之间的边界开始模糊。因此，基准测试和推进数字伪造分析已成为一个紧迫的问题。然而，现有的人脸伪造数据集要么多样性有限，要么只支持粗粒度分析。为了应对这种新出现的威胁，我们构建了 ForgeryNet 数据集，这是一个非常大的人脸伪造数据集，在图像和视频级数据中具有统一的注释，跨越四个任务：1）图像伪造分类，包括双向（真/假）、三个-way（真/假，带有身份替换的伪造方法/带有身份保留的伪造方法的假）和 n-way（真实和 15 种各自的伪造方法）分类。 2）空间伪造定位，将伪造图像的操纵区域与其相应的源真实图像进行分割。 3）视频伪造分类，它重新定义了视频级别的伪造分类，其中操纵帧位于随机位置。这项任务很重要，因为现实世界中的攻击者可以自由地操纵任何目标帧。 4) Temporal Forgery Localization，对被操作的时间段进行定位。 ForgeryNet 在数据规模（290 万张图像，221,247 个视频）、操作（7 个图像级方法、8 个视频级方法）、扰动（36 个独立和更多混合扰动）方面是迄今为止最大的公开可用的深度人脸伪造数据集) 和注释（630 万个分类标签、290 万个操作区域注释和 221,247 个临时伪造片段标签）。我们对现有的人脸取证方法进行了广泛的基准测试和研究，并获得了一些有价值的观察结果。

SVHN

门牌号码图片。SVHN（Street View House Number）Dateset 来源于谷歌街景中的门牌号码。训练集图片73257张，测试集26032张

kitti

自动驾驶数据。是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断。

中文语料

数据统计

相关导航

暂无评论