语音识别文件常用的一些声学特征

如题所述

在语音识别文件中,声学特征的分析对于理解语音信号至关重要。其中,线性预测系数(LPC)是基于声道的短管级联模型,认为语音信号可以由前几个时刻的线性组合估算。通过最小均方误差(LMS)自相关法、协方差法或格型法计算LPC,其快速有效的计算特性使其广泛应用。LPC类似的是线谱对(LSP)和反射系数,它们都是预测参数模型的体现。


另一种重要的声学特征是倒谱系数CEP,通过先对语音信号进行离散傅立叶变换(DFT)取对数,再反变换得到。LPCCEP是在获得滤波器线性预测系数后通过递推公式计算的,使用倒谱可以增强特征参数的稳定性。


与这些基于发声机理的特征不同,Mel倒谱系数(MFCC)和感知线性预测(PLP)则是受人耳听觉系统研究的影响。人的听觉系统对频率相近的音调有屏蔽效应,Mel刻度通过模拟这种临界带宽来描述。MFCC首先通过FFT将时域信号转换为频域,再用Mel滤波器组卷积对数能量谱,最后通过离散余弦变换(DCT)选取前N个系数。PLP则保留了LPC的计算方法,但在自相关参数计算时,使用了对听觉激励对数能量谱的DCT处理。




扩展资料

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

温馨提示:答案为网友推荐,仅供参考
相似回答