近日,语音研讨范畴顶级会议Interspeech2020召开,在本次年夜会的口音英语语音辨认挑衅赛上,腾讯云小微腾讯云智能钛结合团队在口音英语语音辨认赛道中以年夜幅领先的成就获得冠军。
Interspeech是由国际语音通讯协会ISCA组织的语音研讨范畴的顶级会议之一。本次年夜会上提出,在全球范畴内,尺度英文ASR体系已经具备较高的辨认准确率,但口音英语辨认仍然是具有挑衅性的课题,也是技巧利用中亟待战胜的最年夜挑衅。为此,年夜会特殊设置了口音英语语音辨认挑衅赛,恰是为了增进行业技巧交换,展现最新技巧冲破。
在本次口音英语语音辨认挑衅赛中,向参赛者开放了来自分歧国度的共八种口音英文数据,笼罩了各类发音特色、口音轻重等典范难点。腾讯云小微腾讯云智能钛结合团队的技巧计划,以辨认过错率最低且优于第二名10%的好成就获得赛道第一。

采取摸索性语音辨认计划,腾讯结合团队展现技巧研讨实力
口音语音辨认难点重要源于口音自己的纷歧致性、语速与音素发音的多变性难以建模等题目。别的,带有口音标注的语音数据的缺乏也严重限制了相干研讨的开展。作为在业内颇具代表性的AI语音技巧团队,腾讯云小微腾讯云智能钛结合团队在此次竞赛中,冲破性的选择了基于Wav2Vector无监视预练习+CTC Fine-tuning的Wav2Vec计划。该计划的原型是Facebook公司在本年初次提出的。在本次竞赛前,几乎没有其他关于Wav2Vector的胜利利用。是以,此次竞赛是腾讯云小微团队在语音辨认计划上的全新摸索。
在这个计划中,腾讯团队起首应用Librispeech无监视预练习的Wav2Vector模子进行模子初始化,之后在预练习模子上添加一层输出层,采取英文字母作为建模单位,并应用CTC丧失函数进行练习。因为模子采取的是字母建模,辨认成果随机性较年夜,轻易引进过多过错。是以,团队引进了说话模子进行束缚,年夜幅进步了辨认机能。经试验发明,解码时引进N元文法(N-Gram)说话模子,可以降落30%的辨认过错率。同时,进一步采取基于Transformer的说话模子对解码的候选成果进行重打分,过错率可以降落7%。
年夜范围散布式练习加快,腾讯云智能钛为AI研讨与利用供给极致的平台支持
此次竞赛由云小微团队与智能钛团队协力完成,是智能钛平台继2020.8.21与腾讯机灵团队一道打破128卡练习ImageNet的业界新记载后,在年夜范围散布式练习加快场景上的又一个胜利案例。智能钛平台整合了腾讯内部各营业团队的丰盛经验,针对年夜范围散布式练习加快场景,在单机机能、多机扩大、AutoML等三个方面进行了深度优化,可以有用地支持各AI团队的研讨与利用。具体如下:
极致的单机机能: 智能钛团队协同内部的开源团队,推出了深度定制版TensorFlow(TI-TensorFlow),在高维动态稀少特点支撑、编译优化、主动混杂精度练习等特征上对社区版TensorFlow进行了深度优化,年夜年夜晋升了模子单机机能。
线性多机扩大: 智能钛TI-Horovod在开源框架的基本上,联合腾讯云的软硬件情况进行了深度优化。经由过程自研的自顺应梯度融会、2D AllReduce和多畅通信等技巧,实现了近千卡的线性扩大加快。经由过程开创的层级Topk技巧,冲破了弱网情况下的带宽瓶颈。
高效AutoML: 针对深度进修练习范围年夜、超参数范畴广和人工调参效力低的题目,智能钛TI-AutoML内置了腾讯自研的高效主动化搜刮技巧,充足应用腾讯云的海量算力,让算法工程师从繁琐的手工调参中解放出来。
语音技巧连续冲破,加快各行业落地利用
在AI语音助手的现实利用中,若何进步口音辨认胜利率,是业内一向在存眷和摸索的题目。在中英文翻译方面,腾讯云小微输出的技巧计划,旨在进步英语语音辨认的正确率,进而晋升翻译效力和正确性。已经在腾讯翻译君、腾讯同传等各行业计划中普遍利用。
除了中英文翻译范畴,腾讯云小微AI助手,已经在智能网联汽车、聪明文旅、聪明教导、智能家居等多行业范畴落地,办事普遍的用户群体。口音语音辨认的冲破,对于中文语音助手的技巧晋升也有很年夜的价值。好比在车载语音助手的利用上,一款汽车产物须要知足全国范畴分歧区域、分歧口音用户的交互需求。好比车载语音助手上,因为用户来自全国分歧区域,用户的口音将直接影响辨认的正确性,特殊是对于口音较重的用户。本次挑衅赛中,腾讯云小微参赛团队摸索端到的AI练习方式,为日后的计划利用落地和迭代供给了更有价值的技巧助力,将推进AI语音助手计划为用户带来更好的办事体验。








