图片展示
搜索

技术专区为您提供行业知识、功能解释、设置常见问题

ASR是什么意思?ASR自动语音识别转文字技术


ASR是什么意思?

ASR是指自动语音识别技术(Automatic Speech Recognition),是一种将人的语音转换为文本的技术。

语音识别(Automatic Speech Recognition)是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。

由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。


语音识别系统的性能大致取决于以下4类因素:

1. 识别词汇表的大小和语音的复杂性;

2. 语音信号的质量;

3. 单个说话人还是多说话人;

4. 硬件。

-----------------------------

ASR自动语音识别文字基本原理

语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示:


上面这个图其实很好理解,就是把语音输入,我们首先就是要对输入的语音进行预处理,然后提取语音的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列***的与输入语音匹配的模板。然后根据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种***的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

语音识别系统构建过程整体上包括两大部分:训练和识别。训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”;而识别过程通常是在线完成的,对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。

-----------------------------

ASR自动语音识别文字技术原理

首先,我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows PCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。下图是一个波形的示例。



其实语音识别的声音预处理与声纹识别的声音预处理有很大一部分是相似的,在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为 VAD。

要对声音进行分析,需要对声音分帧,也就是把声音切开一小段一小段,每小段称为一帧。分帧操作一般不是简单的切开,而是使用移动窗函数实现。帧与帧之间一般是有交叠的。分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取MFCC特征。至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。

接下来就要把这个矩阵变成文本了。首先要介绍两个概念:

音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,参见The CMU Pronouncing Dictionary。汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调等等。

状态:这里理解成比音素更细致的语音单位就行啦。

-----------------------------

ASR语音识别的工作流程



预处理:

1. 首尾端的静音切除,降低干扰,静音切除的操作一般称为VAD。              

2. 声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧,使用移动窗函数来实现,不是简单的切开,各帧之间一般是有交叠的。

特征提取:主要算法有线性预测倒谱系数(LPCC)和Mel 倒谱系数(MFCC),目的是把每一帧波形变成一个包含声音信息的多维向量;

声学模型(AM):通过对语音数据进行训练获得,输入是特征向量,输出为音素信息;

字典:字或者词与音素的对应, 简单来说, 中文就是拼音和汉字的对应,英文就是音标与单词的对应;

语言模型(LM):通过对大量文本信息进行训练,得到单个字或者词相互关联的概率;

解码:就是通过声学模型,字典,语言模型对提取特征后的音频数据进行文字输出。

语音识别流程的举例(只是形象表述,不是真实数据和过程):

1、语音信号:我是机器人

2、特征提取:我是机器人

123456...

3、声学模型:

123456... - w o s i j i q i r n

4、字典:窝:w o;我:w o; 是:s i; 机:j i; 器:q i; 人:r n;级:j i;忍:r n;

5、语言模型(给出概率):我:0.0786, 是: 0.0546,我是:0.0898,机器:0.0967,机器人:0.6785;

 

6、 输出文字:我是机器人。

-----------------------------

一、语音识别ASR的基本过程

语音识别的输入一般是时域的语音信号,数学上用一系列向量表示(length T, dimension d),输出是文本,用一系列token表示(length N, V different tokens),一般来说,在ASR问题中,输入信号的长度T会大于token的长度N


二、Token的选择

Token可以理解为语音和文字之间的一种桥梁纽带,我们听到的语音可以通过AD转化变为数字信号存储,进而以矩阵的形式存储于计算机中,那日常生活中的文字也需要一种转换被计算机所存储使用,ASR问题中,目前主流的token有以下几种:

1.Phoneme :以声音的基本元素作为Token,不同的单词由不同的音素组成,通过识别输入语音中存在哪些音素进而组合成识别出的文字,这里就存在一个很重要的映射关系表Lexicon,所以这种Token的缺点也很明显,即需要语言学的知识才可以得到Lexicon,而且不同的文献会给出不同的Lexicon

2. Grapheme:以文字书写的***小单位作为token

优点:(1)不需要语言学知识,是Lexicon free;(2)即使遇到了训练过程中没有出现的Token,也可以期待一下会有什么样的结果(手动滑稽)

缺点:(1)使用起来比较有挑战性,很多发音相同但对应Token确是不同,需要比较强的上下文信息,对模型的学习提出了更高的要求,此时面对的是一个更加复杂的问题;(2)以英文举例,有比较大的拼错风险

3. Word:用词汇作为Token,对很多语言来说往往都不太适合,因为Token总数量V会非常大,英文因为有明确的空格作为区分词的方式,V的数量还算可以接受,但中文就很难以词作为Token,同时以土耳其语举例,是可以不断加后缀变成新的词汇的,是无法穷举的,所以像这样的语言,都不适合用word作为Token

4. Morpheme:以有富有具体含义的***小单位作为token,是一个介于word和grapheme之间的token,以英文来举例,unbreakable → “un” “break” “able”;rekillable → “re” “kill” “able”

那如何来获取一种语言的Morpheme呢?一般有两种途径:

求助语言学家linguistic

统计发现一些模式statistic

5. Bytes:更硬核的Token是直接选择计算机中的byte,很显然吗,这种方式的Token是 language independent


三、从输出的角度理解ASR问题

输入语音,直接输出word embeddings

输入语音,在识别的过程中加入翻译过程,直接输出翻译后的结果

输入语音,在识别的过程中加入意图分类的判断,输出意图

输入语音,在识别的过程中加入关键词检测填充,比如一个订票系统,关注的是时间和地点


四、从输入的角度理解ASR问题(Acoustic Feature)

声音处理时有两个基本概念:帧长、帧移

每一帧的声音数据可以有很多种表示方法,举三个例子:

直接拿时域采样点

MFCC

Filter bank output

3. 因为传统语音信号处理中有帧移这个操作,所以每一帧的声音信号其实是有部分重叠的,也就是特性是比较接近的,这个点可以用来挖掘做模型压缩提高性能

4. 声学特征可以分为这么几个层级:Waveform->spectrogram->filter bank->MFCC

***,同样也对19年语音领域三大会议进行ASR任务中语音特征使用的调研,结果如下,MFCC应该会越来越淡出人们的视野


五、ASR任务需要多少数据量?(有文字标注的数据)

目前一般会从Librispeech数据集开始,960 hours;Timit数据集相当于CV领域的mnist,有些小的想法可以在这上面先进行验证,看是否work;imagenet换算成语音大概是4096 hours;google和facebook在文献中公布的使用语音数据量是1.3w hours,但实际上使用的应该是这个数字的10倍-20倍


ASR是什么意思?ASR自动语音识别转文字技术
ASR是什么意思?ASR是指自动语音识别技术(Automatic Speech Recognition),是一种将人的语音转换为文本的技术。语音识别(Autom
长按图片保存/分享
图片展示

Call us

总机: 020-85261379 

销售/售后: 18144823824(微信同号)

图片展示

Address

国威工厂:中国·广东省·深圳市龙岗区坪地盛佳道2号

售后/维修:中国·广东省·广州市天河区广州大道北991号

图片展示

Email

ws824@82416.com

华北

——

北京 天津 济南 青岛 太原 长治 石家庄
电话/邮箱:beijing@82416.com

东北

——

哈尔滨 长春 沈阳 大连 大庆 呼和浩特
电话/邮箱:haerbin@82416.com

华东

——

上海 杭州 南京 苏州 温州 宁波 常州 无锡
电话/邮箱:shanghai@82416.com

西北

——

银川 兰州 西宁 乌鲁木齐 石嘴山 克拉玛依
电话/邮箱:lanzhou@82416.com

华南
——
  • 广州 深圳 海口 三亚 福州 厦门 南昌 赣州
  • 电话/邮箱:guangzhou@82416.com

西南
——

重庆 贵阳 成都 南宁 昆明 遵义 柳州 桂林
电话/邮箱:chongqing@82416.com

华中

——

长沙 岳阳 武汉 孝感 西安 咸阳 郑州 合肥
电话/邮箱:wuhan@82416.com

珠三角
————

珠海 东莞 佛山 汕头 惠州 中山 湛江 阳江
电话/邮箱:shenzhen@82416.com

Copyright © 广州普国贸易有限公司 国威程控电话交换机 All Rights Reserved 粤ICP备17026317号 公安备案号:44010602002433

在线客服
联系方式
总机
020-85261379
销售/项目
18144823824
二维码
二维码
销售/技术/维修
在线客服
添加微信好友,详细了解产品
使用企业微信
“扫一扫”加入群聊
复制成功
添加微信好友,详细了解产品
我知道了