声纹抗时变是什么意思?

声纹抗时变是什么意思

本人就是从事声纹鉴定的,这项法庭科学又叫做语音同一认定、司法语音鉴定,都属于语音检验鉴定的范畴。变声器的案例我遇到过,最后给出了认定同一的鉴定结论(过程不表)。

借用我“模仿语音能否鉴定”下的答案,首先要介绍语音特殊性和语音的稳定性,(这是声纹鉴定的基本原理,各种教材上有不同风格的表述,但是说的都是一个事儿,我带学生的第一课就是让他们背下这个原理):

语音的特殊性,发音器官分为声门上系统、喉系统、声门下系统,每个人都有自己的一套发音器官,它们的形态、构造各有差别,每次发音需要众多发音器官相互配合、共同运动。这决定了语音的物理属性(也称语音四要素):音质、音长、音强、音高。这些物理量人各不同,因而语音在声纹图谱上呈现不同的声纹特征,根据这些声纹特征参数,我们不但可以区分语声,而且可以认定同一人的语声。

语音的稳定性。一个人的发音器官发育成熟后,其解剖结构和生理状态是稳定不变的,加之发音人的言语习惯等语音的社会心理属性,使得每个人在不同时段所说的相同文本内容的话,基本语音特征是稳定不变的。因此,你可以把人的声道看做管乐中的号,长号、短号虽然都是号,但由于声道的形状、长短不同,吹出来的音质也不同。

目前的声纹鉴定方法,简单讲分为两种:

一是目前我国司法实践中普遍应用的“人工鉴定”——专家鉴定人依靠语音学方法

二是未来发展方向的“自动鉴定”——计算机通过算法来模拟人耳对声学特征的提取、训练、对比来实现。

那么“变声器”是什么高深的玩意儿呢?变声器是通过改变输入音频的音色、音调,并将变声后的音频输出的工具(百度百科)。其实还有声音快慢,百度百科说漏了,另外声音大小就不需说了,不用变声器也能改变。那么语音四要素中的音质(就是音色)、音调(对应音高)、音强(就是声音大小)、音长(对应声音快慢)都改变了,语音的物理属性已经改变,怎么鉴定呢?

A不要把“变声器”想得那么高深

在鉴定上,“变声器”不就是个信道吗?信道的定义是信号传输的通道,我们的鉴定名叫声纹鉴定,其实分析检验的不是真正意义上人的语音,而是人的录音——语音信号,各种录音器材都可以看成信道,各种编码方式也可以看成信道,它们都对语音信号进行了改变。举个例子:对讲机、电话,都看以看成信道,你的声音经过对讲机传输,你听感上已经失真,你已经感受到了信道对语音信号的影响。目前市面上的“变声器”,无论是硬件的还是软件的,主要是改变基频,把低沉的声音(男声)变成了尖细的声音(女声、童声)。(关于改变音色这一点,一方面,音色肯定是改变了,经过了重采样及基频的改变,反映音色的共振峰特征肯定有变化。另一方面,其共振峰的变化是整体改变的,其中的相对关系可以看做不变)当然准确的讲,只是我们听感及社会认识中的所谓男声、女声、童声、老年人声。声音不是性特征,不能区分男女,只是统计学上区分。反例就是“郑海霞”这样身材高大——声带厚长(正相关)的语音,网上搜来听听,你感觉是男是女?另外,动画片中柯南用变声器神奇的将其变成毛利小五郎,现实中做不到这么精确,达不到这么好的效果,效果这么好的即时变声器,单从理论上讲,需搜集海量的毛利小五郎的声学数据才能实现。

B“变声器”改变了语音的物理属性,并非改变了所有鉴定意义上的声学特征

前文所述目前普遍采用的人工通过语音学鉴定方法,其主要的优点就在能区分出计算机难以认知的“高级声纹特征”,如:方言口音、习惯用语、赘语、言语缺陷、韵律特征。这怎么“高级”呢?我们熟人间分辨一个人的语音,首先就是通过这些特征;模仿秀模仿时也非常注重这类特征。但是计算机难以认识,称为“高级特征”。没错,人耳才是最精密的声纹鉴定仪器。而非专业人士所不熟悉的“低级声纹特征”,如:共振峰、基频,却是计算机最“熟悉”的,乃至音强、音长、VOT等都是计算机能认识的。

C“变声器”改变了语音的物理属性,在鉴定采样时也可用相同方法改变样本

不管是人工鉴定还是自动鉴定,都是通过对案件录音——“检材”与嫌疑人录音——“样本”来进行对比。变声器既然是经过一定设定改变了的“检材”,那么用相同设定来改变“样本”即可。前面已经讲过,变声器就是个广义的信道。曾经有鉴定人因为是“变声器”的案件,认为语音已经失真,必须要通过信号还原出之前的语音才进行鉴定。这种思路,先不说信道还原在当前科技下不能丝毫不变的还原,主要是没考虑过,我们鉴定所分析的录音,哪一个不是通过信道进行信号处理的结果?采样率再高、精度再细,它也是离散变化的结果,能真正和人声这样的连续信号等同吗?同样都经过信道,都受到信号处理,只是差别大小不同而在听感上表现不同。

问题二:“声波跟指纹一样,无论怎么改变都能识别”这种说法对吗?

回答:不对。

“声波”这种说法就不对,每次听到“声波”这个词我就想起蝙蝠,这是非专业人士经常使用的名词。从事“声纹鉴定”专业的人,对鉴定十分了解,对物理、信号处理有肤浅的了解,对蝙蝠等生物几乎不了解。在司法实践中,无论是法官、检察官还是公安机关的侦查员,都是以我们的专业说法为权威,至于各类法学院教授,也许有不同表述,但他们说了能算,还要法官干嘛?为了准确回答这个问题我搜了下百度,里面出现的论文不是我自己写的,就是我老师写的,就是我熟悉的同行写的,也就是说百度上这些似是而非、甚至自相矛盾的相关释义全部来自于我们这些人对同一事物的不同理解及表述。“声纹”这个名词,是在上世纪80年代这项法庭科学技术引入中国时,最早期的鉴定人对其所作定义。该称谓是将语音学鉴定方法中所使用的语音图谱比照“指纹”图谱而定,通俗易懂,并且习惯性沿用。“声纹鉴定”即是整个语音鉴定包括语音同一认定、录音的真实性检验鉴定、语音降噪及提高性噪比等鉴定项目的统称;也单独指是语音同一认定。“声纹”即是主要鉴定依据——声音图谱的简称;又是语音作为生物识别特征的通称。当前的鉴定方法已经有所发展,依靠语谱图分析声学特征的方法并不是唯一的鉴定方法,因此称作“司法语音鉴定”更准确,称作“声纹鉴定”更方便。总之,根据喜好,爱咋称咋称,但是不能称为“声波”,因为“声音波形”另有所指。

A “声波”不同于“声纹”

由于翻译与认识的不同,大概来自于这几个单词sound waves、spectrum、voice、formant、intensity,鉴定人如果讲声波,肯定是指波形图(见图1),恰恰是指intensity,在语音学方法的声纹鉴定中,不是主要特征,主要特征是formant共振峰(见图2)。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2019-12-16
声纹识别的性能要求可以概括为采样、抗噪、抗时变、准确性与响应速度5方面的要求,其中准确性、响应速度与采样相关的专利申请数量最多
第2个回答  2019-12-16
声纹识别,生物识别技术的一种,也称为说话人识别,包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号,再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。
第3个回答  2019-12-16
近年来,我国移动金融服务市场得到迅猛发展,在世界范围内处于领先地位。2017年全国移动支付规模已超过200万亿,在线下消费使用手机移动支付的用户比例已经上升至65.5%,购买移动金融理财产品的用户达到1.29亿。面对规模如此巨大的金融交易,如何保障金融交易的安全就成为非常重要的课题。在此背景下,中国人民银行于近期发布《移动金融基于声纹识别的安全应用技术规范》(下称标准),标志着以声纹识别为代表的生物识别技术开始正式为我国的移动金融保驾护航。
第4个回答  2020-05-27
声纹识别主要是从语音中提取出能代表该说话人的特征进行识别,随着用户的年龄增长,其语音特征也会随之改变,导致识别率的下降。比如男性随着年龄的增长声音会变得浑厚,或者用户个人习惯的改变都是需要去更新用户模型的。
相似回答