Service Hotline: 13823761625

Support

Contact Us

You are here:Home >> Support >> Technology

Technology

Speech recognition lesson 1: Overview

Time:2022-01-30 Views:2320

自动语音识别(Auto ** tic Speech Recognition,ASR),简称为语音识别。

  参考:语音识别综述-从概念到技术

1. 概述

   声音从本质是一种波,这种波可以作为一种信号来处理,所以语音识别的输入实际上就是一段随时间播放的信号序列,而输出则是一段文本序列。将语音片段输入转化为文本输出的过程就是语音识别。

   一个完整的语音识别系统通常包括信号处理和特征提取、声学模型、语音模型和解码搜索这四个模块。

   信号处理和特征提取可以视作音频数据的预处理部分,一般来熟,一段高保真、无噪声的语音是非常难得的,实际研究中用到的语音片段都有噪声的存在,所以正式进入声学模型之前,我们需要通过消除噪声和信道增强等预处理技术,将信号从时间域转化到频率域,然后为之后的声学模型提供有效的特征向量。接下来声学模型会将预处理部分得到的特征向量转化为声学模型得分,与此同时,语言模型(自然语言处理中类似n-gram和RNN等模型)会得到一个语言模型得分,最后解码搜索阶段会针对声学模型得分和语言模型得分进行综合,将得分最高的词序列作为最后的识别结构。以上便是语音识别的一般原理。

   因为语音识别相较于一般的自然语言处理任务的特殊之处就在于声学模型,所以语音识别的关键也就是信号与处理技术和声学模型部分。在深度学习兴起应用到语音识别领域之前,声学模型就已经有了非常成熟的模型体系,并且也有了被成功应用到实际系统中的案例。比如说经典的高斯混合模型(GMM)和隐马尔可夫模型(HMM)等。神经网络和深度学习兴起之后,循环神经网络、LSTM、编码-解码框架、注意力机制等基于深度学习的声学模型将此前各项基于传统声学模型的识别案例错误率降低了一个level,所以基于深度学习的语言识别技术也正在逐渐成为语音识别领域的核心技术。

   语言识别发展至今,无论是基于传统声学模型的语音识别系统还是基于深度学习的识别系统,语音识别的各个模块都是分别优化的。但是语音本质上是一个序列识别问题,如果模型中的所有组件能够联合优化,很可能会获取更好的识别准确度,因而端到端的自动语音识别是未来语音识别的一个最重要的发展方向。

2. 信号处理与特征提取

  因为声波是一种信号,具体我们可以称之为音频信号。原始的音频信号通常会由于人类发声器官或者语音采集设备所带来的静音片段、混叠、噪声、高次谐波失真等因素,一定程度上会对语音信号质量产生影响。所以在正式使用声学模型进行语音识别之前,我们必须对音频信号进行预处理和特征提取。

  最初始的预处理工作就是静音切除,也叫做语音激活检测(Voice Activity Detection,VAD)或者语音边界检测。目的是从音频信号流里识别和消除长时间的静音片段,在截取出来的有效片段上进行后续处理会很大程度上降低静音片段带来的干扰。除此之外,还有许多其他的音频处理技术,大家可以找来信号处理相关的资料进行阅读。

  然后就是特征提取工作。音频信号中通常包含非常丰富的特征参数,不同的特征向量表征着不同的声学意义,从音频信号中选择有效的音频表征的过程就是语音特征提取。常用的语音特征包括线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC);其中LPCC特征是根据声管模型建立的特征参数,是对声道响应的特征表征;而MFCC特征是基于人的听觉特征提取出来的特征参数,是人耳听觉的特征表征。所以,在对音频信号进行特征提取时通常使用MFCC特征。

  MFCC特征主要由于预加重、分帧、加窗、快速傅立叶变换(FFT)、梅尔滤波器组、离散余弦变换这几部分组成,其中FFT和梅尔滤波器组是MFCC最重要的部分。一个完整的MFCC算法包括以下几个步骤:

(1)快速傅立叶变换(FFT) (2)梅尔频率尺度转换 (3)配置三角形滤波器组并计算每一个三角滤波器对信号幅度谱滤波后的输出 (4)对所有滤波器输出作对数运算,再进一步做离散余弦变换(DTC),即可得到MFCC

  实际的语音研究中,也不需要我们再从头构造一个MFCC特征提取方法,Python为我们提供了一个 pyaudio 和 librosa 等语音处理工作库,可以直接调用MFCC算法的相关模块快速实现音频预处理工作。

  过去在语音识别上所取得的成果证明MFCC是一种行之有效的特征提取方法。但随着深度学习的发展,受限的玻尔兹曼机(RBM)、卷积神经网络(CNN)、CNN-LSTM-DNN(CLDNN)等深度神经网络模型作为一个直接学习滤波器代替梅尔滤波器组被用于自动学习的语音特征提取中,并且取得很好的效果。

3. 传统声学模型--GMM

  在经过语音特征提取之后,我们就可以将这些音频特征进行进一步的处理,这是为了找到语音来自某个声学符号(音素)的概率。这种通过音频特征找概率的模型就称为声学模型。在深度学习兴起之前,混合高斯模型(GMM)和隐马尔可夫模型(HMM)一直作为非常有效的声学模型而被广泛使用,当然即使在深度学习告诉发展的今天,这些传统的声学模型在语音识别领域仍然有着一席之地。

  3.1 混合高斯模型

  所谓混合高斯模型(Gaussian Mixture Model,GMM),就是用混合的高斯随机变量的分布来拟合训练数据(音频特征)时形成的模型。原始的音频数据经过短时傅里叶变换或者取倒谱后会变成特征序列,在忽略时序信息的条件下,这种序列非常适用于使用GMM进行建模。

  如果一个连续随机变量服从高斯混合分布(上图),其概率密度函数形式为:

  在实际的GMM训练中,通常采用EM算法来进行迭代优化,以取GMM中的加权系数及各个高斯函数的均值与方差等参数。

  (2)隐马尔可夫模型--HMM

  GMM作为一种基于傅里叶频谱语音特征的统计模型,在传统语音识别系统的声学模型中发挥了重要的作用。其劣势在于不能考虑语音顺序信息,高斯混合分布也难以拟合非线性或近似非线性的数据特征。所以,当状态这个概念引入到声学模型的时候,就有了一种新的声学模型--隐马尔可夫模型(Hidden Markov Model,HMM)。

  在随机过程领域,马尔可夫过程和马尔可夫链向来有着一席之地。当一个马尔可夫过程含有隐含未知参数时,这样的模型就称之为隐马尔可夫模型。HMM的核心概念就是状态,状态本身作为一个离散随机变量,马尔可夫链的每一个状态上都增加了不确定性或者统计分布使得HMM成为了一种双随机过程。

  HMM的主要内容包括参数特征、仿真方法、参数的极大似然估计、EM估计算法以及维特比状态解码算法等细节知识(笔者在手动实现机器学习算法系列中详细介绍,本篇作为综述这里不做详细的展开)。

4. 基于深度学习的声学模型

  一提到神经网络和深度学习在语音识别领域的应用,可能我们的第一反应就是循环神经网络RNN模型以及长短期记忆网络LSTM等等。实际上,在语音识别发展的前期,就有很多将神经网络应用于语音识别和声学模型的应用了。

  最早用于声学建模的神经网络就是最普通的深度神经网络(DNN),GMM 等传统的声学模型存在音频信号表征的低效问题,但 DNN 可以在一定程度上解决这种低效表征。但在实际建模时,由于音频信号是时序连续信号,DNN 则是需要固定大小的输入,所以早起使用DNN来搭建声学模型时需要一种能够处理语音信号长度变化的方法。一种将 HMM 模型与 DNN 模型结合起来的 DNN-HMM 混合系统颇具有效性。

  在上图这个框架中,HMM 用来描述语音信号的动态变化,DNN 则是用来估计观察特征的概率。在给定声学观察特征的条件下,我们可以用 DNN 的每个输出节点来估计 HMM 某个状态的后验概率。由于 DNN-HMM 训练成本不高而且相对较高的识别概率,所以即使是到现在在语音识别领域仍然是较为常用的声学模型。

  除了 DNN 之外,经常用于计算机视觉的 CNN 也可以拿来构建语音声学模型。当然,CNN 也是经常会与其他模型结构使用。CNN 用于声学模型方面主要包括 TDNN、CNN-DNN框架、DFCNN、CNN-LSTM-DNN(CLDNN)框架、CNN-DNN-LSTM(CDL)框架、逐层语境扩展和注意 CNN 框架(LACE)等等。这么多基于CNN的混合模型框架都在声学模型上取得了很多成果,这里笔者仅挑两个进行简单阐述。

  (1)TDNN 是最早基于 CNN 的语音识别方法,TDNN 会沿频率轴和时间轴同时进行卷积,因此能够利用可变长度的语境信息。TDNN 用于语音识别分为两种情况,第一种情况下:只有TDNN,很难用于大词汇量连续性语音识别(LVCSR),原因在于可变长度的表述(utterance)与可变长度的语境信息是两回事,在 LVCSR 中需要处理可变长度表述问题,而 TDNN 只能处理可变长度语境信息;第二种情况:TDNN-HMM 混合模型,由于HMM能够处理可变长度表述问题,因而该模型能够有效地处理 LVCSR 问题。

  (2)DFCNN 的全称叫做全序列卷积神经网络(deep fully convolutional neural network),是由国内语音识别领域的翘楚科大讯飞于2016年提出的一种语音识别框架。DFCNN 先对时域的语音信号进行傅里叶变换得到语音的语谱图,DFCNN 直接将一句语音转化成一张图像作为输入,输出单元则直接与最终的识别结果(比如音节或者汉字)相对应。DFCNN 的结构中把时间和频率作为图像的两个维度,通过较多的卷积层和池化(pooling)层的组合,实现对整句语音的建模。DFCNN 的原理是把语谱图看作带有特定模式的图像,而有经验的语音学专家能够从中看出里面说的内容。

  (3)最后就是循环神经网络 RNN,其中更多是 LSTM 网络。音频信号具有明显的协同发音现象,因此必须考虑长时相关性。由于循环神经网络RNN具有更强的长时建模能力,使得 RNN 也逐渐替代 DNN 和 CNN 成为语音识别主流的建模方案。比如说常见的基于 seq2seq 的编码-解码框架就是一种基于 RNN 的模型。关于 RNN 在语音识别和声学模型中的应用笔者不做过多解释,后续有应用性的推文再做详细介绍。

  长期的研究和实践证明:基于深度学习的声学模型要比传统的基于浅层模型的声学模型更适合语音处理任务。语音识别的应用环境常常比较复杂,选择能够应对各种情况的模型建模声学模型是工业界及学术界常用的建模方式。但单一模型都有局限性。HMM能够处理可变长度的表述,CNN能够处理可变声道,RNN/CNN能够处理可变语境信息。声学模型建模中,混合模型由于能够结合各个模型的优势,是目前乃至今后一段时间内声学建模的主流方式。

5. 端到端的语音识别系统

  无论是 GMM 和 HMM 这样的传统声学模型,还是基于深度学习的声学模型,它们对于整个语音识别系统都是分开优化的,但是语音识别本质上是一个序列识别问题,如果模型中的所有组件都能够联合优化,很可能会获取更好的识别准确度,所以我们需要一种端到端(End2End)的语音识别处理系统。

  传统的语音识别系统中的声学模型训练:

  传统的语音识别系统中的语言模型训练:

  谷歌的 Listen-Attend-Spell (LAS) 端到端语音识别系统:

  关于端到端的语音识别系统,笔者做的调研程度有限,更多的内容需要后续不断的学习和实践,关于这篇语音识别的综述暂时写到这里。

免责声明: 本文章转自其它平台,并不代表本站观点及立场。若有侵权或异议,请联系我们删除。谢谢!
    矽源特科技ChipSourceTek