语音识别技术中提取的声音特征的参数具体指什么?

如题所述

语音信号是受外界干扰的随机信号,在进行语音信号处理(语音编码、语音合成、语音识别)时,必须经过特征提取车里才能有效的降低信号的冗余度。现在说一下语音特征参数有能量、基因频谱、共振峰值、短时过零率等,相比之下比较常用的是线性预测倒谱:lpcc与mel倒谱系数,这是因为MFCC和LPCC在实际应用中最为成熟,特别是在真实信道噪声和频谱是真的情况下,也就是在噪声干扰比较强状态下,特征参数MFCC相对于LPCC语音特征系数,能更好的反映人耳的听觉感知情况,所以应用的比较多。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2017-12-11

先我们要知道语音的产生过程:由肺产生向外的气流,完全放松时声带张开,就是平时的呼吸。如果声带一张一合(振动)形成周期性的脉冲气流。这个脉冲气流的周期称之为——基音周期。那语音特征参数提取过程最重要的大概就是基音检测和线性预测分析(LPA)。通过对基音周期的分析,以及建立在基音周期分析之上的爆破音分析、齿音分析等等,再配合统计模型就能够判断清浊音,判断音节,判断音调,从而准确的得到每一个声母韵母和音调,然后就可以像手动输入那样子进行语音识别了,多出音调参数,识别率理论上比手动更高!

第2个回答  2017-12-11

首先是Take the Fourier transform of (a windowed excerpt of) a signal.这个其实说了两件事:一是把语音信号分帧,二是对每帧做傅里叶变换。要分帧是因为语音信号是快速变化的,而傅里叶变换适用于分析平稳的信号。在语音识别中,一般把帧长取为20~50ms,这样一帧内既有足够多的周期,又不会变化太剧烈。每帧信号通常要与一个平滑的窗函数相乘,让帧两端平滑地衰减到零,这样可以降低傅里叶变换后旁瓣的强度,取得更高质量的频谱。帧和帧之间的时间差(称为“帧移”)常常取为10ms,这样帧与帧之间会有重叠,否则,由于帧与帧连接处的信号会因为加窗而被弱化,这部分的信息就丢失了。傅里叶变换是逐帧进行的,为的是取得每一帧的频谱。一般只保留幅度谱,丢弃相位谱。Map the powers of the spectrum obtained above onto the mel scale, using triangular overlapping windows.这一步做的事情,是把频谱与下图中每个三角形相乘并积分,求出频谱在每一个三角形下的能量。一般有以下几个效果:傅里叶变换得到的序列很长(一般为几百到几千个点),把它变换成每个三角形下的能量,可以减少数据量(一般取40个三角形);频谱有包络和精细结构,分别对应音色与音高。然后是Take the logs of the powers at each of the mel frequencies.总结以上就把一帧语音信号用一个12~20维向量简洁地表示了出来;一整段语音信号,就被表示为这种向量的一个序列。语音识别中下面要做的事情,就是对这些向量及它们的序列进行建模了。

相似回答