数据集精选

OmniObject3D

物体数据集，包含大量高质量真实扫描的 3D 物体，旨在促进现实世界中 3D 感知、重建和生成技术的发展。每个物体都通过 2D 和 3D 传感器捕获，提供纹理网格、点云、多视角渲染图像以……

链接直达手机查看

物体数据集，包含大量高质量真实扫描的 3D 物体，旨在促进现实世界中 3D 感知、重建和生成技术的发展。每个物体都通过 2D 和 3D 传感器捕获，提供纹理网格、点云、多视角渲染图像以及多个环绕实拍的视频。

数据统计

相关导航

AISHELL-3

85小时汉语集。可做为多说话人合成系统。录制过程在安静室内环境中，使用高保真麦克风（44.1kHz，16bit）。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注，并通过严格质量检验，此数据库音字确率在98%以上。

SVHN

门牌号码图片。SVHN（Street View House Number）Dateset 来源于谷歌街景中的门牌号码。训练集图片73257张，测试集26032张

ImageNet

最大图片集合。大约1500万张图片，2.2万个分类，一般情况下只用子数据集就可以了。。每张都经过了严格的人工标注。数据集还是按照WordNet框架组织的，WordNet模拟的就是人类对事物的识别系统。

CIFAR-10&100

32像素图片。CIFAR-10包含了10个种类的图片，包括飞机，汽车，鸟.....图片是彩色的。总共60,000个样本。CIFAR-100包含了100个种类，但是总共也只有60,000个样本。

AISHELL-1

178小时汉语。录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中，同时使用3种不同设备：高保真麦克风（44.1kHz，16-bit）；Android系统手机（16kHz，16-bit）；iOS系统手机（16kHz，16-bit）。高保真麦克风录制的音频降采样为16kHz。400名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注，并通过严格质量检验，此数据库文本正确率在95%以上。分为训练集、开发集、测试集。

LSUN

场景图片。包含10个场景类别，例如卧室、固房、客厅、教室等场景图像。每类场景大约有120,000至3,000,000张图片。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...