添加收藏
微信分享
微博分享
同盾“声纹识别建模大赛”落幕,助力智能语音产学研用联合发展
摘要

大赛第一名的模型精确度高达0.0011111分,已经达到甚至超越声纹识别工业级水平。

目前随着深度学习的引入以及在此基础上派生的各类模型的组合,语音识别准确率得到了大幅度提升,智能音频设备也呈现出多样化和日常化。这些产品虽然大大普及了公众对语音交互的认知和使用,但实际上由于真实场景使用下的复杂、不同设备体积限制对算力的要求等因素,语音产业的发展仍然受技术瓶颈的限制尚处在起步阶段,业界依然共同面临许多技术难题。

10月22日,由同盾科技主办,同盾大学、科赛网承办,得意音通协办的“声纹识别建模大赛”决赛路演正式开幕。通过为期三个多月的层层筛选与比拼,浙江大学的河姆渡团队夺得大赛冠军,南京大学的咖喱棒团队与东南大学的SeuTao团队夺得亚军,北京航空航天大学的HelloKitty团队、厦门大学Cehn团队以及C-baseline团队获得季军。

大赛全程以一线实战经验为素材,参赛者基于给定的训练数据建立模型,从而可对任给定的两段语音数据,模型输出这两段语音是由同一个人说的概率。大赛的训练数据随机从希尔贝壳中文普通话语音数据库中抽取,数据量与难度随着赛程的推进呈指数增加,评审最终根据EER值来判断分类模型的精确程度,并依据排行榜名单竞选出前十支队伍。

入围决赛的这十支队伍,测评榜成绩平均分达到了0.0052222(成绩越接近0,越接近满分),而第一名的模型精确度高达0.0011111分,已经达到甚至超越声纹识别工业级水平。

获得冠军的浙大河姆渡团队在比赛中实现了一种端到端的声纹特征学习模型,在网络模型和损失函数方面进行了创新和改进,凭借新的Triplet在线选择方法并定义一种新颖的损失函数获得了专家评委的一直好评。

该团队成员卞腾跃在领奖时表示,此次大赛是团队第一次对于不定类别的识别类问题进行探究,通过比赛得以学习了各种loss function的优缺利弊和适应场景,让团队成员获得更多新想法新思考。

据悉,浙江大学计算机学院人工智能研究所教授、博士生导师、浙江大学计算机学院前院长庄越挺,清华大学教授、清华大学语音和语言技术中心主任、博士生导师郑方,麦子金服副总裁李晓忠,Rokid网络安全部门负责人白嘎力,云之声上海AI Labs负责人李轶杰,同盾科技副总裁、同盾金融科技研究院院长顾威,同盾科技-语音及自然语言实验室负责人燕鹏举,线性资本CEO、合伙人王淮出席担任评委。

热门文章
1
众安在线保费激增亏损难止,调整业务结构、渗透海外谋市场"信任"
2
佳源国际股价“闪崩”风险难控,资金承压或是主因
3
2018年度大考成绩出炉:90%自主品牌未完成目标,吉利长城未幸免
4
从与茅台齐名到即将沦为白酒退市第一股,谁还能拯救皇台酒业
5
哈啰高调入局顺风车抢春运市场,拉新方式引质疑

注册成功,欢迎来到蓝鲸财经!