声纹识别
在AI领域,解决的问题分三个阶段:看/听清、看/听懂、满足(PS:和百度开发者大会上景鲲对DuerOS的架构描述一致,所见略同)。在语音领域,声纹识别往往对应的是听清,语音识别对应着听懂的初期阶段(听懂在语音识别后,还需要大量的LU技术)。
对语音信息的挖掘,一般而言包括以下几个部分:
具体的说,声纹识别关心的“谁在说”,用于解决生物身份确认和识别;而语音识别关心的“说了什么”,用于解决对说话内容的识别。
声纹识别的理论基础:每个生物个体说话都具有其独特的特征。决定这些独特特征的因素有很多,主要有:
正常生物个人在说话时的声纹状态还是相对稳定的。但受到身体状况、年龄和情绪的变化影响,声纹特型会出现变化。
注册语音和测试语音的差异,这部分是对声纹识别在应用场景需要面临的一个难点。比如注册语音是歌手的歌曲音频,但测试语音是歌手的访谈音频,两种情况下的发声方式会有较大区别。
声纹识别的一般步骤包括:收集语音->噪声抑制和有效语音(VAD)->声纹特征提取->发声人的声音建模->识别匹配
语音信号可以认为是一种短时平稳信号和长时非平稳信号,其长时的非平稳特性是由于发音器官的物理运动过程变化而产生的。从发音机理上来说,人在发出不同种类的声音时,声道的情况是不一样的,各种器官的相互作用,会形成不同的声道模型,而这种相互作用的变化所形成的不同发声差异是非线性的。但是,发声器官的运动又存在一定的惯性,所以在短时间内,我们认为语音信号还是可以当成平稳信号来处理,这个短时一般范围在10到30毫秒之间。
这个意思就是说语音信号的相关特征参数的分布规律在短时间(10-30ms)内可以认为是一致的,而在长时间来看则是有明显变化的。在数字信号处理时,一般而言我们都期望对平稳信号进行时频分析,从而提取特征。因此,在对语音信号进行特征提取的时候,我们会有一个20ms左右的时间窗,在这个时间窗内我们认为语音信号是平稳的。然后以这个窗为单位在语音信号上进行滑动,每一个时间窗都可以提取出一个能够表征这个时间窗内信号的特征,从而就得到了语音信号的特征序列。这个过程,我们称之为声学特征提取。这个特征能够表征出在这个时间窗内的语音信号相关信息。如下图所示:
这样,我们就能够将一段语音转化得到一个以帧为单位的特征序列。由于人在说话时的随机性,不可能得到两段完全一模一样的语音,即便是同一个人连续说同样的内容时,其语音时长和特性都不能完全一致。因此,一般而言每段语音得到的特征序列长度是不一样的。
在时间窗里采取的不同的信号处理方式,就会得到不同的特征,目前常用的特征有滤波器组fbank,梅尔频率倒谱系数MFCC以及感知线性预测系数PLP特征等。然而这些特征所含有的信息较为冗余,我们还需要进一步的方法将这些特征中所含有的说话人信息进行提纯。
百度内部的声纹建模实际采用两个模型融合来完成:
这是目前被广泛采用的声纹识别系统。其主要特点就是将之前提取的声学特征通过按照一定的发声单元对齐后投影到一个较低的线性空间中,然后进行说话人信息的挖掘。直观上来说,可以理解成是在挖掘“不同的人在发同一个音时的区别是什么”。
首先我们会用大量的数据训练一个能够将声学特征很好的对应到某一发声单元的神经网络,如下图所示:
这样,每一帧特征通过神经网络后,就会被分配到某一发声单元上去。然后,我们会对每一句话在所有的发声单元进行逐个统计,按照每个发声单元没单位统计得到相应的信息。这样,对于每一句话我们就会得到一个高维的特征矢量。
在得到高维的特征矢量后,我们就会采用一种称之为total variability的建模方法对高维特征进行建模:
M=m+Tw
其中m是所有训练数据得到的均值超矢量,M则是每一句话的超矢量,T是奇通过大量数据训练得到的载荷空间矩阵,w则是降维后得到的ivector特征矢量,根据任务情况而言,一般取几百维。最后,对这个ivector采用概率线性判别分析PLDA建模,从而挖掘出说话人的信息。
发声单元包括大概五千个特征,这些特征就包括两种情况。一种情况就是你在说什么,具体对应说话内容的文本空间;第二种情况是你的声音是什么样的,你的特征是什么,具体对应说话音调等声音特征。在这五千个特征里面,其中90%是说话的内容,10%是声音的特征,百度从中提取400个特征。输入两端人声对比的时候就比对这400个特征。
上一套方法还借鉴了一些语音学的知识(采用了语音识别中的发声单元分类网络),那么基于端到端深度学习的说话人信息提取则是一个纯粹的数据驱动的方式。通过百度的海量数据样本以及非常深的卷积神经网络来让机器自动的去发掘声学特征中的说话人信息差异,从而提取出声学特征中的说话人信息表示。
我们首先通过海量的声纹数据训练一个深度卷积神经网络,其输出的类别就是说话人的ID,实际训练中我们使用了数万个ID来进行网络的训练。从而得到了能够有效表征说话人特性底座网络。在根据特定场景的任务进行自适应调优。具体过程如下图所示:
在完成网络的训练后,我们就得到了一个能够提取说话人差异信息的网络,对每一句话我们通过该网络就得到了说话人的特征。
端对端的系统,通过深度学习让机器自动挖掘声学特征中说话人的信息差异,用了2万个人、共5千个小时左右的数据去训练。该端对端网络会分析每段语音中的1020个特征,分析不同语音下同一特征像不像。这个端对端的网络的目标是输入两段声音,判断是不是同一个人说的话。
两套系统最后在得分域上进行了加权融合,从而给出最后的判决结果。
声纹识别技术原理是什么?
声纹识别技术原理是利用声音的独特性来识别人物的,声纹识别简单地说,就是通过声音进行说话人身份识别的过程。语音信号之所以被形容为“形简意丰”,是因为声音包含有内容、身份、情感、年龄及健康状况等丰富的信息。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,理论上说,每个人说话时的短时频谱特征、声源特征、时序动态特征、韵律特征、语言学特征等都有差异,因此声纹就像指纹一样具有唯一性和独特性,可以进行识别。声纹识别具有的优势。1、声纹识别在金融领域的很多应用场景都是高频使用,对用户体验方面的需求较高,如果验证方式较为繁琐,往往用户难以接受,声音信息一般不涉及用户隐私问题,声音采集通过一个麦克风或者电话、手机就可完成,用户的接受度比较高;2、更重要的是,声纹不易纂改,再加之声音信号中含有语言信息、副语言信息和非语言信息,综合利用声音中蕴含的丰富信息可以具备较高的安全特性。以上内容参考 人民网——闻声识人:声纹识别让金融安全听得见
声纹识别哪家好
1、六大主流声纹识别厂商(1)科大讯飞成立于1999年,具有语音合成、语音识别、口语评测、语言翻译、声纹识别、人脸识别、自然语言处理等智能语音与人工智能核心技术。2、标准声纹采集器BioVoice0是首批通过公安部质量检测的产品,由快商通自主研发,采用智能化麦克风集群,支持单向/全向拾音、多种文本采集方式。3、目前在市面上做的比较好的主要有这几家:快商通、启明星辰、全志科技、绿盟科技、共达电声、科大讯飞等。4、可以关注上海华镇,它是专门从事语音识别、语音合成、声纹识别技术的开发、研究、软件应用及提供全程技术支持和服务的高新科技企业;全面掌握核心技术,其中中文语音识别和合成技术代表了当今世界同类产品的领先水平。5、它们主要采用国际通用的EqualErrorRate(EER)来综合衡量声纹鉴定与识别算法的准确度,自由文本准确度高达97%,固定短语准确度高达98%。6、讯飞听见是由科大讯飞推出的以语音转文字为核心功能的系列产品和服务。
录了声纹会被直接判刑吗
不能。 首先录音也可以作为证据,声纹比对匹配是可以定罪。但是,仅仅只有声纹是不能够的,还需要其他的证据才可以一起定罪,这是一件非常严肃的事情。 刑事案件需要具有很多的证据,其中口供就是一类非常重要的证据,但其他证据的重要性也不能被忽视。下面就介绍一下只有口供没证据是否可以认定犯罪的先关问题。如果只有口供而没有其他证据的话,这个时候法庭应当做无罪判决。但检察院起诉的话一般不会没有其他的证据,因为检察院也可以请求公安机关来协助进行调查,证据这个时候就会得到除口供之外的其他证据,比如说被害人的陈述,还有证人证言,也都是证据,这些证据是可以很容易就被找到的。犯罪嫌疑人如果是被羁押的,那么公安机关还有检查机关要在法定的期限内完成侦查,审查起诉这些程序。接下来,法院就可以依据公安机关以及检察院的侦查笔录,还有起诉书以及辩护人的辩解,这些证据,法院才能作出判决。也可以变更强制措施,比如说变更为监视居住,取保候审或者是直接解除强制措施。另外,这些也不受侦查,审查起诉期间的限制。法院可以自己作出判决。这样也是有利于维护嫌疑人的合法权益,从而减少错判的概率。不光是只有口供没有其他的证据不能定罪在其实在刑事案件中,任何一个证据都会受到孤证不能定罪原则的限制。如果没有这个原则的话,那么很容易出现错判或者是误判的现象,公安机关也有可能对犯罪嫌疑人屈打成招,妨碍司法的公正性。但是现在也有一个问题。就是笔录能否成为定罪的唯一证据。答案也是否定的,因为笔录不能以种类划分,比如说侦查实验也会进行。笔录的制作现场勘查也会制作笔录,如果只有笔录的话,笔录也能够构成完整的证据链,那么在这种情况下,法院可以据此对犯罪嫌疑人进行定罪。法律依据: 《中华人民共和国刑事诉讼法》 第六十条·对于经过法庭审理,确认或者不能排除存在本法第五十六条规定的以非法方法收集证据情形的,对有关证据应当予以排除。 五十六条·被取保候审的犯罪嫌疑人、被告人应当遵守以下规定: (一)未经执行机关批准不得离开所居住的市、县; (二)在传讯的时候及时到案; (三)不得以任何形式干扰证人作证; (四)不得毁灭、伪造证据或者串供。 被取保候审的犯罪嫌疑人、被告人违反前款规定,已交纳保证金的,没收保证金,并且区别情形,责令犯罪嫌疑人、被告人具结悔过,重新交纳保证金、提出保证人或者监视居住、予以逮捕。犯罪嫌疑人、被告人在取保候审期间未违反前款规定的,取保候审结束的时候,应当退还保证金。