用DSP应对3G手机的语音识别应用
发布时间:2008/8/26 0:00:00 访问次数:383
从设计的角度来看,asr在实时操作以及语音格式的清晰程度与快速识别等功能性的实现方面,需要依靠高性能数字信号处理器技术来完成所需的复杂算法。幸运的是,现代dsp技术已取得了很大进展,它已经实现了比以往更强大的计算能力、更低的功耗和更小的体积,可以将更复杂和更精确的asr功能加到3g手机上。将高效、功能强大的dsp核与其它元件及技术组合在一起,可望实现3g手机所要求的通道处理方案。
目前来看,asr的基本应用按功能可分为三类:语音转文本(语音‘键入’)、讲话人识别和语音命令控制。
这三种类型的功能涵盖了3g设备要用到的多种asr特性。语音转文本的应用包括语音拨号和电子邮件口述。讲话人识别功能可实现对个人存储数据及讲话人身份资料的安全语音访问,能够用于诸如信用卡购物及银行业务等安全用途的访问。语音命令控制功能涉及对语音扩展标记语言(vxml)网站内容如理财服务、目录帮助等的语音接口应用等。(vxml目前正在成为网站内容的标准化语音标签)。
从实施方案看,3g手机asr应用可分为以终端为中心和采用客户机/服务器结构两种类型。如图1所示,以终端为中心的应用方案中,由3g手机完成整个语音识别过程并送出识别结果。在客户机/服务器方案中,终端设备完成预处理和特征提取,然后通过防差错数据通道将所得参数发给中心服务器完成识别过程。采用客户机/服务器结构,3g手机须通过数据通道而非移动通道把语音传给服务器进行识别,这是因为移动通道的语音编码速率较低,会严重影响识别性能。
asr系统按语汇量的不同有很大差异。简单的网络应用具有最基本的16个字语汇功能就够用了,但对于3g手机应用,则需要更大量的专用语汇。这种语汇可以是与讲话人有关的(按用户的声音进行语训)或无关的(任何人的声音都可以)。语汇量以及语训数据的增加,对dsp计算载荷量的要求就变大。
例如,我们来考察一种典型的基于隐式马可夫模型(hmm)的与讲话人无关、100条指令识别量的应用。假定hmm模型从左到右无遗漏;有6种状态,5种混合高斯型分布,具有对角线协方差;并有39种特性(频率倒频谱系数或mfcc为13mel,及其第一级、第二级差值),16位精度,那么声学hmm模型的大小将为100x6x5x(39+2)x2= 240kb。
进行包括输入语音采样的细分、开窗、mfcc提取、概率计算和viterbi搜寻等实时操作,对dsp的运算量要求一般为1000万次乘法累加循环(mac)。对于连续语音的识别,数千个三话音模型(triphone model)和各种语法模型,要求更大的存储空间,以及更高的dsp处理速度。
由此,asr系统在手机上应用的成败在很大程度上将取决于dsp的功能和设计。第三代移动通信系统要求使用比以往更高性能的dsp,而asr功能的加入对dsp就提出了更高的要求。从构建系统架构的角度看,实现好的dsp性能需要具有高处理速度,低功耗和高编码密度。
高速dsp是关键
由于语音识别系统要对声音进行“实时”处理和采样,因此它要进行大量的运算。下面的数字和运算量是以终端中心方案为前提的。如果dsp20%的计算资源分配用于1000万次mac语音识别应用,那么要同时具有这种功能,并仍有余力完成3g手机所要求的诸如‘软猫’(soft modem)处理能力等其它dsp任务,则要求dsp提供5000万次mac。采用速度较慢的dsp,如运算速度为2500万次mac,会使语汇量中指令数目减半或使hmm参数变得很少,导致系统总体性能下降。
dsp速度对语音识别应用系统的复杂性和性能起着决定作用。例如,假定一个与讲话人无关的连续语音应用要求1亿次mac,而dsp计算资源的50%要为3g手机中的其它dsp应用所占用,那么要求dsp所具有的处理速度就为2亿次mac。
效率至关重要
高速dsp的实现可引入通道自适应和声域自适应等现代hmm技术。从理论上讲,dsp越快,asr应用的性能就越好。但并行处理性能对asr的吞吐量来说也是一个重要指标。例如,工作频率为200mhz、具有四个运算逻辑单元的dsp,其吞吐量就远高于工作频率为400mhz的单alu dsp。根据具体应用的不同,使用2到3个单alu dsp可达到与一个四alu dsp相同的性能。与单个四alu处理器方案相比,使用多个单alu dsp会增大手机成本,因此从产品的适销性考虑,必须权衡成本和性能。
概言之,设计师在对一个600mhz单alu dsp 和一个300-mhz四alu dsp进行比较选择时,头脑中要谨记一个最终目标:有效的吞吐量。具有并行处理能力的多alu dsp可成为取得好产品的最佳方案。
性能与功率
高处理能力的dsp
从设计的角度来看,asr在实时操作以及语音格式的清晰程度与快速识别等功能性的实现方面,需要依靠高性能数字信号处理器技术来完成所需的复杂算法。幸运的是,现代dsp技术已取得了很大进展,它已经实现了比以往更强大的计算能力、更低的功耗和更小的体积,可以将更复杂和更精确的asr功能加到3g手机上。将高效、功能强大的dsp核与其它元件及技术组合在一起,可望实现3g手机所要求的通道处理方案。
目前来看,asr的基本应用按功能可分为三类:语音转文本(语音‘键入’)、讲话人识别和语音命令控制。
这三种类型的功能涵盖了3g设备要用到的多种asr特性。语音转文本的应用包括语音拨号和电子邮件口述。讲话人识别功能可实现对个人存储数据及讲话人身份资料的安全语音访问,能够用于诸如信用卡购物及银行业务等安全用途的访问。语音命令控制功能涉及对语音扩展标记语言(vxml)网站内容如理财服务、目录帮助等的语音接口应用等。(vxml目前正在成为网站内容的标准化语音标签)。
从实施方案看,3g手机asr应用可分为以终端为中心和采用客户机/服务器结构两种类型。如图1所示,以终端为中心的应用方案中,由3g手机完成整个语音识别过程并送出识别结果。在客户机/服务器方案中,终端设备完成预处理和特征提取,然后通过防差错数据通道将所得参数发给中心服务器完成识别过程。采用客户机/服务器结构,3g手机须通过数据通道而非移动通道把语音传给服务器进行识别,这是因为移动通道的语音编码速率较低,会严重影响识别性能。
asr系统按语汇量的不同有很大差异。简单的网络应用具有最基本的16个字语汇功能就够用了,但对于3g手机应用,则需要更大量的专用语汇。这种语汇可以是与讲话人有关的(按用户的声音进行语训)或无关的(任何人的声音都可以)。语汇量以及语训数据的增加,对dsp计算载荷量的要求就变大。
例如,我们来考察一种典型的基于隐式马可夫模型(hmm)的与讲话人无关、100条指令识别量的应用。假定hmm模型从左到右无遗漏;有6种状态,5种混合高斯型分布,具有对角线协方差;并有39种特性(频率倒频谱系数或mfcc为13mel,及其第一级、第二级差值),16位精度,那么声学hmm模型的大小将为100x6x5x(39+2)x2= 240kb。
进行包括输入语音采样的细分、开窗、mfcc提取、概率计算和viterbi搜寻等实时操作,对dsp的运算量要求一般为1000万次乘法累加循环(mac)。对于连续语音的识别,数千个三话音模型(triphone model)和各种语法模型,要求更大的存储空间,以及更高的dsp处理速度。
由此,asr系统在手机上应用的成败在很大程度上将取决于dsp的功能和设计。第三代移动通信系统要求使用比以往更高性能的dsp,而asr功能的加入对dsp就提出了更高的要求。从构建系统架构的角度看,实现好的dsp性能需要具有高处理速度,低功耗和高编码密度。
高速dsp是关键
由于语音识别系统要对声音进行“实时”处理和采样,因此它要进行大量的运算。下面的数字和运算量是以终端中心方案为前提的。如果dsp20%的计算资源分配用于1000万次mac语音识别应用,那么要同时具有这种功能,并仍有余力完成3g手机所要求的诸如‘软猫’(soft modem)处理能力等其它dsp任务,则要求dsp提供5000万次mac。采用速度较慢的dsp,如运算速度为2500万次mac,会使语汇量中指令数目减半或使hmm参数变得很少,导致系统总体性能下降。
dsp速度对语音识别应用系统的复杂性和性能起着决定作用。例如,假定一个与讲话人无关的连续语音应用要求1亿次mac,而dsp计算资源的50%要为3g手机中的其它dsp应用所占用,那么要求dsp所具有的处理速度就为2亿次mac。
效率至关重要
高速dsp的实现可引入通道自适应和声域自适应等现代hmm技术。从理论上讲,dsp越快,asr应用的性能就越好。但并行处理性能对asr的吞吐量来说也是一个重要指标。例如,工作频率为200mhz、具有四个运算逻辑单元的dsp,其吞吐量就远高于工作频率为400mhz的单alu dsp。根据具体应用的不同,使用2到3个单alu dsp可达到与一个四alu dsp相同的性能。与单个四alu处理器方案相比,使用多个单alu dsp会增大手机成本,因此从产品的适销性考虑,必须权衡成本和性能。
概言之,设计师在对一个600mhz单alu dsp 和一个300-mhz四alu dsp进行比较选择时,头脑中要谨记一个最终目标:有效的吞吐量。具有并行处理能力的多alu dsp可成为取得好产品的最佳方案。
性能与功率
高处理能力的dsp
上一篇:手机操作平台开源将是必然趋势