最近,Facebook开源了目前世界上最大的多语言语音数据集,VoxPopuli:
这一数据集共涵盖了23种语言,时长超过40万小时。
其中,每种语言都有9000到18000小时的无标签语音数据。
此外,还包括了共1800小时,16种语言的转录语音数据,以及17300小时,15种目标语言的口译语音数据。
这一数据集庞大的无标签数据量和广泛的语言覆盖率,对改进自监督模型有着很大的帮助。
而Facebook也希望能够帮助提高语音数据集的质量和鲁棒性,使训练语音转换神经网络更加可靠。
最终加速新的NLP系统的开发,使AI翻译的效果越来越好。
而数据集的名字,VoxPopuli的直译“人民的心声”也表示了其原始数据的来源——
即源语音全都收集自2009-2020年欧洲议会的活动录音。
在欧洲议会的各自活动,如全体会议、委员会会议和其他活动上,发言者都会以不同的欧盟语言轮流发表演讲。
Facebook就是从欧会官网上抓取了每个演讲的文字记录、演讲者信息、开始/结束时间戳。
论文地址:
https://arxiv.org/abs/2101.00390
下载:
https://github.com/facebookresearch/voxpopuli
相关文章
订阅评论
登录
请登录后发表评论
0 评论