嵌入式语音识别引擎及语音识别片上系统
北京华录润声微电子技术有限公司
清华大学电子工程系语音技术与芯片设计实验室
北京华录润声微电子技术有限公司是由国内电子百强企业之一—中国华录集团以及国内第一家专业创业投资公司深圳市中科招商创业投资有限公司共同投资兴建的,注册资本1700万,专业从事语音技术领域的产品研发、销售及技术服务的高科技公司。公司主要技术骨干均由清华大学毕业的博士与硕士组成。公司和清华大学签署有技术转让协议,所以技术依托清华大学电子工程系语音技术与芯片设计实验室,该实验室专门从事嵌入式语音识别技术的研究达十几年。最新研发出的基于子词的非特定人嵌入式语音识别引擎和片上系统,是目前对硬件资源需要最小的高性能汉语识别引擎和片上系统。该引擎采用大词汇量连续语音识别技术,并且作大量的参数优化、模型优化、运算方法优化等工作。因此有效地压缩了模参数的规模,且具有很高的识别性能,达到国际先进水平,是国家863计划成果,并完全可以实用化。欢迎工业界的朋友们和我们联系,我们将竭诚为社会各界提供完善的产品和技术服务,并与各界朋友共创辉煌。
一、语音识别引擎
(1) 主要性能指标:
·识别词条容量大:可识别1000多条连续语音命令
·识别正确率高:对4000样本经过严格测试,其识别正确率如下

·识别速度快: 在100Mips的16bit定点DSP上,对600个词条进行语音识别时,每条语音的识别时间小于0.2倍实时。即识别一般人名或其它名称时,所需的识别时间只有0.2秒的时间,使人感觉不到滞后。
·具有高性能孤立数码语音识别,识别率高达98%以上。而且数码可以与人名等词条混合识别。
·对硬件资源需求小:
要求程序存贮量 16KB(ROM或SRAM)
数据存贮量32KB~48KB(SRAM)
(2)应用特点:本语音识别引擎非常适用于高档手机中,它完全不同于现有手机中的语音拨号功能。其应用特点如下:
· 无需用户进行繁锁的语音采集和训练。由于采用子词的拼接方式组成识别词表中各词条的模板,对新增加的语音命令和人名,用户无需进行语音训练,可以直接通过文本方式输入(如手写或拼音输入)所需要识别的命令或人名,也可以通过与计算机接口由计算机载入,系统可以直接生成识别模板,就可以用语音进行人名检索拨号或者用语音命令控制各种操作。
·在手机上,适于实现电话本的语音检索和拨号,可以存1000个人名或单位名。还可以用语音数码拨号。可以附加语音信息,成为语音名片簿。
·在手机上,无需用户训练,可以实现语音命令操作替代或减少用户的按键操作。方便用户行进中或汽车中应用的方便。
·基本上无需增加硬件资源,就可以将本语音识别引擎嵌入到手机中。由于本引擎所需的硬件资源小,现有的手机一般皆可满足。因而只要增加很少的程序ROM就实现很高性能的语音识别功能。
(3)便于移植
·本语音识别引擎经过多次改进,严格的测试,结构的模块化,现已经开发成一套完整的、标准的定点C程序。较容易地移植到16bit,32bit各种MCU或DSP平台上。
·已优化移植在DSPG公司的OAK及ADI公司的ADSP218X系列DSP上。取得了在不同平台上移植优化的经验。
我们愿意与贵公司合作。在贵公司生产的手机上嵌入本实验室研发的语音识别引擎。使贵公司生产手机产品升级。
二、语音识别片上系统THSR-2
该实验室还研发了一个高性能语音识别专用芯片(片上系统SoC)。应用此芯片,只要加入很少的外围元件就可以组成一个高性能的语音识别及语音压缩编解码系统。此芯片还有集成度高、功耗低和成本低的特点。
(1)先进的双核嵌入式芯片结构见图1

(2)片内包含:
·高性能DSP:高速16bit定点DSP,100MIPS
·高速MCU:与8051兼容
·大容量内存SRAM:124Kbyte
·双路CODEC:12bit ADC/11bit DAC,0——42dB数字可调前置放大器
·多种对外接口
(3)出色的性能:(实测性能如下)
·特定人语音整词或命令识别:100人名,正确识别率99.6%
·特定人汉语数码识别:正确识别率98%以上
·非特定人汉语整词或命令识别:可识别1000条以上。在400条语音识别时正确识别率为98.3%。
·非特定人12条手机命令:正确识别率99.9%
·非特定人汉语数码识别:正确识别率98.3%
·语音压缩编解码:ITU-T G.723.1,从64kbps压缩至5.3kbps/6.3kbps。ITU-T G.729,从64kbps压缩至8kbps。
(4)多应用领域
·移动通信语音拨号,尤其汽车中语音拨号及车上设备语音控制
·高档电话的语音拨号:人名语音检索拨号,可达1000人名
·语音控制PDA
·智能玩具:与人对话娃娃
·各种机械人,各种语音控制玩具
·各种语音记录仪:如火车黑盒子、船用黑盒子、发电厂等语音记录仪
·高性能、多功能语言学习机