Service Hotline: 13823761625

Support

Contact Us

You are here:Home >> Support >> Technology

Technology

Introduction to speech recognition model

Time:2021-12-16 Views:2464
1、语音识别的基本架构

   上式中W表示文字序列,Y表示语音输入。公式1表示语音识别的目标是在给定的语音输入下,找到可能性最大的文字序列。根据贝叶斯公式可以得到公式2,其中分母表示出现这条语音的概率,它相比于求解的文字序列没有参数关系,可以在求解时忽略,进而得到公式

3。公式3中第一部分表示给定一个文字序列出现这条音频的概率,它就是语音识别中的声学模型;第二部分表示出现这个文字序列的概率,它就是语音识别中的语言模型。
 
  无论是传统的方法还是深度神经网络的方法,目前的语音识别架构都没有脱离上面的公式,也就是说都离不开AM和LM。
 
  语音识别主要包括特征工程、声学模型和语言模型三个部分。
 
2、语音特征工程
 
2.1好的语音特征
 
 1)包含区分音素的有效信息,良好的时域分辨率,良好的频域分辨率
 
 2)分离基频F0以及它的谐波成分

   3)对不同的说话人具有鲁棒性

   4)对噪音或通道失真具有鲁棒性

   5)有着良好的模式识别特性,低维特征,特征独立。

  2.2提取MFCC特征
 
 1)A/D转换(采样)

   通过采样将模拟信号转化为数字信号,便于数字化处理,采样方法使用Nyquist采样,采样原理:一个信号不论多么复杂,总可以分解为若干个正(余)弦信号的和,对应了信号的最大频率分量,利用其最大频率的2倍(或高于)频率进行采样,将连续型的信号转化为离散型的信号。预滤波,若采样频率确定,可用截止频率(低于1/2采样频率)模拟低通滤波器进行滤波来防止频域混叠失真。

   2)预加重

   增加语音信号相较于低频分量的高频分量幅度,语音能量主要集中在低频,提高高频,有助于提高信噪比,去除声门激励、口鼻辐射、传播时高频衰减更大的影响。公式如下:
  
 
 3)分帧、加窗
 
 信号处理算法通常假设信号是固定的,而语音信号不断变化,分帧后每一帧假定为静止的,xt[n]=w[n]x‘[td+n],0<=n<=l-1,l 是帧长,每次移动一个帧移。通常ASR中,帧长取25ms,帧移取10ms,帧移使得帧与帧之间过渡更加平稳,否则,帧与帧连接处的信号会因为加窗而被弱化,这部分信息就丢失了,加窗后对每一帧计算短时平均能量(一帧样本点的加权平方和)
 
 4)DFT+取平方

   离散傅里叶变换,从加窗信号中提取频谱信息,计算时用FFT,取平方是为了剔除相位信息。

   5)梅尔滤波

   对DFT功率谱应用一个梅尔级滤波器组,获得梅尔级功率谱,每个滤波器从DFT多个频带中收集能量,DFT频谱是等距频段的,但人类听觉在较高频率下较不敏感。

   对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。(因此一段语音的音调或音高,是不会呈现在 MFCC参数内,换句话说,以 MFCC为特征的语音辨识系统,并不会受到输入语音的音调不同而有所影响)此外,还可以降低运算量。

   6)取对数
 
 采用log压缩动态范围,人类对信号能量的感知是对数的。

   7)IDFT

   生成倒谱系数,DFT估计的功率谱包含F0的谐波,使得频谱包络难以估计。

   8)动态特征

   描述倒谱系数随着时间的变化,一共39维(标准),0-2阶MFCCs(12维)差分,0-2阶能量差分。

  3、声学模型

  3.1声学模型类型

  3.2混合声学模型架构

   在英文中这个声学符号可以是音节(syllable)或者更小的颗粒度音素(phoneme);在中文中这个声学符号可以是声韵母或者是颗粒度同英文一样小的音素。那么公式3中的声学模型就可以表示为下面的公式4的形式:

   其中Q表示发音单位的序列。从公式中可以看到,声学模型最终转换成了一个语音到发音序列的模型和一个发音序列到输出文字序列的字典。这里的发音序列通常是音素,到此为止声学模型是从语音到音素状态的一个描述。为了对不同上下文的音素加以区分,通常使用上下文相关的“三音子”作为建模单元。可以用下图表示:

   其中字典部分表示为如下公式5,其意义是把每个文字拆分成若干发音符号的序列。

   基于上面的推到,声学模型是一个描述语音和状态之间转换的模型。

  此时,引入HMM假设:状态隐变量,语音是观测值,状态之间的跳转符合马尔科夫假设。那么声学模型可以继续表示为如下公式:

   其中a表示转移概率,b表示发射概率。用图来表示的话就是下图中的结构 :

  3.3混合声学模型GMM+HMM

   声学模型的主要功能是:对特征向量序列进行音素标记,利用词典({词:音素})生成字符串序列,简而言之,实现特征到字符的生成。
   实现的方法:1、采用参数估计的方法,对GMM和HMM的参数进行估计,GMM参数的估计采用EM算法,HMM参数估计采用Baum-Welch算法;2、给定相关特征向量,通过GMM输出概率,作为发射概率,结合HMM和viterbi算法标记音素序列;3、根据词典,生成字符串序列。

   GMM模型的主要作用是生成发射概率P(X),其中X是特征向量,多元混合高斯分布的概率密度函数是:

   混合权重的累加和等于一,即cm的和等于1,∑是D×D 维协方差矩阵,|∑|是∑的行列式,参数估计采用EM算法。

   HMM模型是描述音素状态转换关系的,该模型包括五个参数,初始概率,转移概率,发射概率,观测序列,隐含序列,在声学模型中主要是通过HMM和viterbi标记处音素序列,HMM模型图如下:

   其中,隐含状态为音素,通过初始概率,转移概率,发射概率,观测序列可以求出各个时刻各音素的概率,结合viterbi算法求出音素序列,HMM参数估计采用Baum-Welch算法,

  4、语言模型

   语言模型的目的是根据声学模型输出的结果,给出最大概率的文字序列

  n-gram语言模型:

   P(S)被称为语言模型,基于马尔科夫假设,下一个词的出现仅仅依赖于它前面一个或几个词,假设仅仅依赖前面一个词:

   通常通过极大似然估计构造语言模型,公式如下:

   对于音字转换问题,输入拼音nixianzaiganshenme,可能对应着很多转换结果,对于这个例子,可能的转换结果如下图所示(只画出部分的词语节点),各节点之间构成了复杂的网络结构,从开始到结束的任意一条路径都是可能的转换结果,从诸多转换结果中选择最合适的结果的过程就需要解码算法。

   常用的解码算法是viterbi算法,它采用动态规划的原理能够很快地确定最合适的路径。


免责声明: 本文章转自其它平台,并不代表本站观点及立场。若有侵权或异议,请联系我们删除。谢谢!
    矽源特科技ChipSourceTek