数据集精选

AISHELL-3

85小时汉语集。可做为多说话人合成系统。录制过程在安静室内环境中，使用高保真麦克风（44.1kHz，16bit）。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音……

标签：语音数据

链接直达手机查看

85小时汉语集。可做为多说话人合成系统。录制过程在安静室内环境中，使用高保真麦克风（44.1kHz，16bit）。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注，并通过严格质量检验，此数据库音字确率在98%以上。

数据统计

相关导航

MAGICDATA

755小时汉语。包含755小时的语音数据，其主要是移动终端的录音数据。邀请来自中国不同重点区域的1080名演讲者参与录制。句子转录准确率高于98％。录音在安静的室内环境中进行。数据库分为训练集，验证集和测试集，比例为51：1：2。诸如语音数据编码和说话者信息的细节信息被保存在元数据文件中。录音文本领域多样化，包括互动问答，音乐搜索，SNS信息，家庭指挥和控制等。还提供了分段的成绩单。该语料库旨在支持语音识别，机器翻译，说话人识别和其他语音相关领域的研究人员。因此，语料库完全免费用于学术用途。

AISHELL-1

178小时汉语。录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中，同时使用3种不同设备：高保真麦克风（44.1kHz，16-bit）；Android系统手机（16kHz，16-bit）；iOS系统手机（16kHz，16-bit）。高保真麦克风录制的音频降采样为16kHz。400名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注，并通过严格质量检验，此数据库文本正确率在95%以上。分为训练集、开发集、测试集。

music-auto_tagging-keras

音乐分类。这是一个给音乐增加标签的开源项目。目前系统中已包含的标签： [“摇滚”，“流行”，“另类”，“独立”，“电子”，“女歌手”， “舞蹈”，“ 00s”，“另类摇滚”，“爵士”，“美丽”，“金属”， “放松”，“男歌手”，“经典摇滚”，“灵魂”，“独立摇滚”， “音乐”，“电子音乐”，“80年代' ，'民间'，'90年代'，'chill'，'instrumental'， 'punk'，'oldies'，'blues'，'hard rock'，'ambient'，'acoustic，'experimental'， 'female vocalist'，'guitar'，'Hip-Hop ”，“ 70年代”，“派对”，“国家”，“轻松聆听”， “性感”，“醒目”，“放克”，“电子”，“重金属”，“渐进摇滚”， “ 60年代”，“ rnb”，“独立流行音乐”，“悲伤”，“房子”，“快乐” ]

THCHS-30

1万条中文语音。包含了1万余条语音文件，大约40小时的中文语音数据，内容以文章诗句为主，全部为女声。它是由清华大学语音与语言技术中心（CSLT）出版的开放式中文语音数据库。

VoxPopuli

最大多语言语音数据集。据说是最大的。这一数据集共涵盖了23种语言，时长超过40万小时。其中，每种语言都有9000到18000小时的无标签语音数据。此外，还包括了共1800小时，16种语言的转录语音数据，以及17300小时，15种目标语言的口译语音数据。