“闻声识人”,澎思科技声纹识别技术刷新世界记录
近日,澎思科技与新加坡国立大学Human Language Technology (HLT) 实验室共同研究的声纹识别 (Speaker Verification) 技术在RSR2015数据集上刷新世界纪录。相比目前主流的算法,该技术可以在使用50%或更少的数据进行机器学习的情况下,依然在各种比较协议中表现出十分优异的性能。此番突破,展现了以计算机视觉技术见长的澎思科技,在技术储备的深度和宽度上的双向拓展。https://p3-sign.toutiaoimg.com/pgc-image/bae503df0a054ab380480de32bb627ae~tplv-tt-large.image?x-expires=1986101036&x-signature=yUdGJkkJwGGjTE9yhti5vmEPv%2Fo%3D
“闻声识人”的黑科技
声纹识别(Speaker Verification)也称为说话人识别,是一种通过声音判别说话人身份的技术。该技术通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的,简单的说就是辨别某一句话是否是某一个人说的技术。
声纹识别作为生物识别技术的一种,在公共安全、金融、智能家居和办公等领域都有非常广阔的应用场景,譬如侦查破案、反电信诈骗、治安防控、身份认证、支付、门禁、会议录音等。相比于人脸识别和指纹识别,声纹的采集只需要麦克风模块,成本相比于摄像头或者指纹识别模块而言要低,采集的方便性和安全性则要高。在一些特殊领域,声纹识别更是具有独一无二的优势。
在实际应用中,声纹识别系统往往需要用户事先录入声音,所以利用更少的数据完成声纹识别的训练在实际应用中有着很大的需求。澎思科技提出的新算法,大大降低了训练所需的数据量,但依旧可以实现非常高的识别精度,有着非常重要的实际应用价值。
刷新RSR2015数据集新记录
RSR2015 (Robust Speaker Recognition 2015) 数据库是由新加坡国家科技研究局(
Agency for Science, Technology and Research, A*STAR) 信息通信研究所(Institute for Infocomm Research, I²R) 收集和发布的,被广泛应用于声纹识别等领域的研究工作,是目前最主流的大型语音数据库之一。该数据库旨在为声纹识别领域提供相关的数据资源,允许使用不同类型的比较协议。
声纹识别中最常用的评价指标是等错误率(Equal Error Rate,EER),在调整阈值后,使得错误拒绝率(False Rejection Rate,FRR)等于错误接受率 (False Acceptance Rate,FAR),此时的FAR与FRR的值称为等错误率。一般来说,越低的等错误率表示系统有越好的识别准确性。
https://p3-sign.toutiaoimg.com/pgc-image/a7410a000d4c44e790e622df461f2ec1~tplv-tt-large.image?x-expires=1986101036&x-signature=6ev3bHnqUuiFRo9YrHe03qR96E8%3D
表格1. 遵循RSR2015 的对比协议和trails的比较结果
https://p3-sign.toutiaoimg.com/pgc-image/e855f384f8484d38a24ff8cdef402964~tplv-tt-large.image?x-expires=1986101036&x-signature=I72iZNimQGCyVEslKwtihXm2Vys%3D
表格2. RSR2015 part1 evaluation部分的混合性别测试结果
https://p3-sign.toutiaoimg.com/pgc-image/b7241a90c2ab4bb9bc52fdd67dc1ccaa~tplv-tt-large.image?x-expires=1986101036&x-signature=wbkDF3f57ZkMfkh8zOiJrARWGfc%3D
表格3. RSR2015 part 2部分的测试结果
表格1中分别是数据库第一部分的4个子集的测试结果。其中TW (target wrong) 指的是正确的声纹验证对象但是使用了错误的口令; IC (imposter correct) 代表使用正确口令的声纹信息的冒名顶替者; IW (imposter wrong) 代表使用错误口令的拥有错误声纹信息的人。
在这三项指标中,较为重要的是IC任务。澎思科技提出的新技术在提升该项任务的准确度的同时,兼顾考虑了整个系统的总体性能。
https://p3-sign.toutiaoimg.com/pgc-image/e0cb2745888e47e9b45cf5e9d470fb9b~tplv-tt-large.image?x-expires=1986101036&x-signature=MoLI7H6iYLguyV%2B6BJxK%2B2LQtOY%3D
表格4. RSR2015数据集的SV与UV性能
SV (Speaker Verification)和 UV (Utterance Verification)分别是针对声纹与口令识别的性能评估方式。两项任务综合体现基于文本的声纹系统在两个任务上的性能表现。其中,SV任务的性能尤为重要。
在所有的对比中,绝大多数的算法都使用了RSR2015的背景集(background set)和发展集(development set)的数据以达到更好的效果。甚至在一些算法中,会添加更多其他数据集的数据来提升准确性。与之不同的是,澎思科技提出的新技术并不依赖于这些的数据,在极少的训练数据情况下,依旧有着非常高的准确性。
声纹识别技术在公共安全领域有重要的应用前景和巨大的市场需求,一直是安防行业研究的重点。
在未来,澎思科技的声纹识别等语音技术将逐步应用到平安城市、智慧社区、智慧园区、智慧零售、智慧交通等实战应用场景中,在与计算机视觉和物联网技术的配合下,提供更多有效可靠的产品和方案,推动AI技术的产品化落地和商业化进程。
页:
[1]