车道数据集。OpenLane 是迄今为止第一个真实世界和规模最大的 3D 车道数据集。我们的数据集从公共感知数据集 Waymo Open Dataset 中收集有价值的内容,并为 1000 个路段提供车道和……
物体数据集,包含大量高质量真实扫描的 3D 物体,旨在促进现实世界中 3D 感知、重建和生成技术的发展。每个物体都通过 2D 和 3D 传感器捕获,提供纹理网格、点云、多视角渲染图像以及多个环绕实拍的视频。
178小时汉语。录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16-bit);Android系统手机(16kHz,16-bit);iOS系统手机(16kHz,16-bit)。高保真麦克风录制的音频降采样为16kHz。400名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注,并通过严格质量检验,此数据库文本正确率在95%以上。分为训练集、开发集、测试集。
目标分割数据。DAVIS(Densely-Annotated VIdeo Segmentation)数据集是视频目标分割(VOS)任务中最重要的数据集之一。
1万条中文语音。包含了1万余条语音文件,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。它是由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库。
蛋白质结构。98.5%的人类蛋白质结构被Google AlphaFold2预测出来了! 而且还做成了数据集,全部免费开放!
最大多语言语音数据集。据说是最大的。这一数据集共涵盖了23种语言,时长超过40万小时。 其中,每种语言都有9000到18000小时的无标签语音数据。 此外,还包括了共1800小时,16种语言的转录语音数据,以及17300小时,15种目标语言的口译语音数据。