《科大讯飞5.0》(InterPhonic )5.0[压缩包]
中文名: 科大讯飞5.0
英文名: InterPhonic
别名: 科大语音全成软件
资源格式: 压缩包
版本: 5.0
发行时间: 2006年6月22日
制作发行: 2006-6-22
地区: 大陆
语言: 多语言
简介:

InterPhonic 5.0 概述 InterPhonic 5.0 语音合成系统是科大讯飞公司推出的中、粤、英混读语音合成系统。它以先进的大语料语音合成技术和语音韵律描述体系为基础,面向中、高端应用,提供任意文本、任意篇章的连续语音合成功能。
应用范围
InterPhonic语音合成系统提供高效、灵活的语音合成服务,可以在多种领域内使用:
桌面娱乐和教学
小型、大型以及电信级的声讯服务平台
UMS和Voice Portal等新兴语音服务系统
版本历史
InterPhonic 系列产品目前所发布的版本及描述:
产品版本 发布日期 描述信息
InterPhonic CE 1.0 2001.12 InterPhonic系列的第一个中英文混合合成版本
InterPhonic CE 1.01 2002.02 在英文合成效果上有所改进,提升合成性能
InterPhonic CE 1.1 2002.05 改进中英文总体合成效果,提升性能和稳定性
InterPhonic CE 1.2 2002.07 增加了多资源包的支持,多个资源的统一管理,改进用户界面
InterPhonic CE 2.0 2002.09 改进了内核算法,提供更多的合成控制参数,功能更强,管理更简单
InterPhonic CE 2.1 2003.01 增加了对CSSML文本标记的支持
InterPhonic CE 2.2 2003.07 合成效果全面提升,并提供CSSML文本编辑工具和TTS Doctor技术支持工具
InterPhonic CE 3.0 2004.03 增加了新的音库,支持预录音、背景音,全面提升合成效果
InterPhonic 4.0 2005.05 增加了男声音库,支持纯英文文本合成,与讯飞语音平台集成
InterPhonic 5.0 2006.05 InterPhonic系列的最新产品
版本情况
根据应用场合和系统组件的不同,InterPhonic 5.0语音合成系统可以分成3种版本:演示版for Windows、桌面版for Windows、企业版for Windows。
各个版本之间的对比列表如下:
组件 演示版 桌面版 企业版
语音合成运行库 有 有 有
语音合成服务器 无 无 有
语音合成开发包 无 有 有
软件锁 无 有 有
相关主题
系统组件
技术指标
Copyright© 1999-2006 iFLYTEK.
新增特性 支持语种增加
多语种的语音合成解决方案是InterPhonic系列语音合成系统的重要目标,目前InterPhonic系列语音合成系统已经能够支持中文普通话、粤语和英文三个语种,并在纯中文、中英文混读、粤英文混读方面达到了很好的效果。InterPhonic 5.0系统在此基础上着重改进了:
(1)纯英文文本的合成效果——Sherri音库。该音库选用以英语为母语的发音人,其发音为标准美国英语,朗读风格流畅自然。
(2)新增台湾国语合成效果——小琳音库。该音库发音为带有台湾地区方言特色的国语,音色甜美柔和。
上述新增音库均沿用了科大讯飞先进的语料收集算法,大幅度扩展了英文语料的数量,保证了语料的覆盖面,并且针对英文的特点加入了大量优化规则,可以很好地适应当前各种应用语境。
增加不同发音人的音库
InterPhonic 5.0系统增加了三种全新的音库——小倩、小琳和Sherri音库。新音库的制作采用了全新的录音语料,并增加了数字、娱乐、体育等其他领域的语料文本。新音库将提供给用户听感上最直接的效果改进。
至此,本系统可以提供小静、小燕、小美、小宇、小倩、小琳和Sherri七个不同发音人录制的音库,能够支持中文、中英混读、英文、粤英混读和台湾国语,每种音库分别提供6K、8K、11K和16K四种不同采样率的音库安装包。在合成过程中,如果安装了多个音库,用户可以根据需要实时切换并测听不同音色、不同采样率的合成效果。
粤语口语化功能改进
粤语是一种口语风格很强的语种,为了更好的提高粤语的合成效果,InterPhonic 5.0除了进一步优化口语化规则之外,还在现有小美粤语库的基础上补充了一部分口语化关闭的语料,并提供将口语化关闭的功能,这些改进使得粤语合成效果更符合实际应用的需要。
预录音功能改进
InterPhonic 3.0语音合成系统实现了预录音的统一管理和处理的功能。用户可以将预录音添加到系统中作为资源,并调整预录音的语音特征,使预录音和合成语音衔接更加自然。
InterPhonic 4.0在InterPhonic 3.0可设置预录音属性的基础上,增加了匹配条件功能和批处理功能。
InterPhonic5.0用预录音智能匹配的方法,最大限度地匹配提示音;用合成模板的方法,改进定制领域合成效果,简化定制流程,加快定制速度。这些改进使得预录音的使用更自然、更灵活,满足更广泛的应用需求。
数字短语效果改进
针对主流应用环境的普遍需求,科大讯飞广泛收集实际应用的语料,并进行细致分析和专业的优化,InterPhonic 5.0在数字数值、姓名短语等最常见应用下效果提升显著,合成效果更加清晰准确、节奏感更强。
自定义词库改进
为了进一步改进分词效果发音效果,资源管理中心的自定义词库功能在原来基础上增加了词语的节奏定制功能和粤语加词功能。改进以后的自定义词库可以添加中文、英文、粤语词语,可以设置英文词语朗读模式,并定制词语的朗读节奏。
系统版本增加
InterPhonic5.0语音合成系统提供了简体中文、繁体中文和英文三种版本,每个版本都配备了相应的安装包,工具界面以及文档,以满足不同类型用户的需求。
InterPhonic 5.0 语音合成系统产品特性:
合成效果
◎ 多语种,适应不断发展的业务需求
能够提供普通话、广东话、英语等上十个语种,包含业界领先的普通话与英语同音混读、广东话与英语同音混读。多引擎管理接口对不同语种的系统提供一致化的访问界面,支持实时切换。
◎ 多音色,满足不同环境的个性化应用
提供男、女声多样化音库,并继承了科大讯飞一贯的优良音质。根据具体应用业务需要,选择最适合的语音风格,适应不同应用场景。 各种音色音库说明列表如下:
音库编号 发音人 发音风格 支持语种 支持采样率
1 小静 中年女声,音质平和,风格轻柔平稳 中文及中英混读 6K/8k/11k/16k
2 小燕 青年女声,音质清脆,风格轻松活泼 中文及中英混读 6K/8k/11k/16k
3 小美 青年女声,音质清脆,风格亲切宜人 粤语及粤英混读 6K/8k/11k/16k
4 小宇 中年男声,音质淳厚,风格沉稳柔和 中英混读及纯英文 6K/8k/11k/16k
5 Sherri 青年女声,音质平和,风格轻柔平稳 英文 6K/8k/11k/16k
6 小倩 青年女声,音质甜美,风格轻快活泼 中文及中英混读 6K/8k/11k/16k
7 小琳 青年女声,音质清脆,风格亲切宜人 台湾国语及中英混读 6K/8k/11k/16k
◎ 增强表现力,语音合成效果更自然
自动识别并表现出合成文本中包含的疑问、感叹句式,合成效果更富表现力。为有效提升广东话合成效果,补充了大量的口语化语料,更加贴近实际应用需要。
◎ 智能文本分析与预处理
保证了分词和对多音字、特殊符号、韵律短语、未登录词(如地名、人名)等分析、处理的高准确度。
◎ 数字、短语文本合成效果显著提升
有效改善了数字数值效果及短语停顿等问题,数字数值朗读更加准确、节奏感更强、发音准确、清晰、饱满。
功能特性
◎ 合理的架构
采用基于TCP/IP的网络语音合成服务和集中式的资源管理机制,形成客户端-资源管理器-服务器有机结合的三层结构,系统架构灵活可伸缩,其稳定性和可用性经受了众多大规模实际应用的检验,确保提供值得信赖的7×24小时不见断自动化语音服务。
◎ 灵活高效的开发接口
iFLYTTS SDK提供了多组语音应用开发API,包括:标准开发接口,简单开发接口,COM组件,SAPI开发接口,开发者可以根据实际需要选用。
◎ 丰富的参数设置与调节功能
提供对全局参数(如音量、语速、音高等)、用户词典、用户规则、定制资源包统一进行配置和管理的工具;数字、标点符号、英文发音方式的设定;中英文加词功能,可以指定每个字词的拼音或音标;均提供统一的简单易用图形化用户界面进行操作设定。
◎高效便捷的增强工具集
InterPhonic的增强工具集套件包括了使用便捷的高效组件,如离线语音应用工具、CSSML可视化编辑工具、DOC/XLS文本格式转换工具等。
◎ 智能Email预处理功能
能够解析普通文本格式、MIME格式和html格式的Email,合成邮件主题、发件人、收件人、信件内容和文本附件,根据语境自动判断读法。
◎ 实用的URI合成功能
增加了URI合成功能。自动用户给出的URI地址下载指定的文本文件进行合成,方便使用网络上的信息资源。
◎ 字符集、语音数据格式和操作系统支持
提供了丰富的资源管理接口。全面支持GB2312、GBK、BIG5、GB18030和UNICODE编码字符集。支持UTF-8字符集,自动识别UNICODE文本。
支持直接输出多种采样率的语音数据格式(包括6K/8K/11K/16K)的线性Wav,A/U率Wav和Vox等多种格式的语音数据。
支持Windows;Unix,Linux等主流操作系统。
◎ 平台支持
与业内知名的相关平台和设备均有过成功的集成案例。通过与众多平台和设备提供商、系统集成商及软件开发商的紧密合作,能够保证向用户提供围绕语音应用全程的专业服务。
优化方案
提供以定制资源包(加载于合成引擎之上,有效提升既定应用领域语音效果的资源集合)和CSSML为代表的主流应用环境进行效果优化的高效解决方案,显著提升实际应用效果。
◎ CSSML,效果提升更自如
CSSML(Chinese Speech Synthesis Markup Language)是由科大讯飞提出并牵头制订的中文语音数据描述规范。该标准得到了国家863专家组、国家信标委和国家技术监督局的极大关注与支持。目前CSSML可以对多种特性进行灵活标注,并与XML兼容,具有良好的扩展特性。
◎ 预录语音,衔接流畅应用简化
InterPhonic预录音统一管理功能,将预录音作为语音合成系统的资源,可以使预录音与合成音衔接流畅,同时避免频繁处理提示音播放与语音合成的切换与过渡问题,简化应用流程的复杂程度,进一步提高服务效果与质量。
◎ 背景音乐,快捷提升用户体检
使用系统提供的工具,可以便捷高效的添加背景音乐,调整背景音乐和合成语音的音量对比,并可直接试听实际效果,使语音服务更加亲切自然。
项目 指标
支持操作系统 Microsoft Windows NT/2000/XP/2003、Linux
支持语种 汉语普通话、英语、粤语、台湾国语
支持音库 女声中英、粤英、台湾国语音库;男声中英、纯英文音库
支持文本类别 普通书面文本、CSSML文本
支持文本控制标记 支持TCCM文本标记
支持语音数据输出格式 采样率 16K,11K,8K,6K
声音数据格式 16bit/8bit PCM,aLaw/uLaw,ADPCM
声音文件格式 Microsoft PCM / aLaw/uLaw Wave, Dialogic Vox
支持速度调整 是,范围是:0.5~2.0
英文字符串处理 按照英文习惯发音
支持字符集 GB2312,GBK,BIG5,UNICODE,GB18030
识别汉字数量 支持国标的一级和二级字库,共6763个简体汉字
系统词库词组数量 约300000条
支持用户定义词库 是
语音数据缓冲区设置 支持64K~2M Bytes
断句参数设置 支持回车符处理参数和最大断句长度参数
标点符号发音设置 支持标点符号发音方式的选择和具体发音的设置
数字串发音设置 支持数字串发音方式的选择
发音停顿风格设置 支持发音停顿风格的选择
节奏正确率 93%
句子可懂度 97%
自然度 4.3(5分制)
单线程内存占用 298M Bytes
30路并发内存占用 358M Bytes
最低配置 PIII800;512M RAM
桌面版推荐配置 PIII800;512M RAM
企业版推荐配置 PⅣ 3.0G*2;2G RAM
InterPhonic 5.0 语音合成系统包括如下组件:
名 称 说 明
InterPhonic 5.0 语音合成运行库 运行合成系统需要的资源、管理工具和演示程序
TTS Server Express v1.2语音合成服务器 用于网络调用的语音合成服务器软件
IFly TTS SDK1.2 语音合成开发包 开发需要的声明、接口文档和示例程序源码
CSSML Editor v1.0 CSSML标记文本的可视化编辑工具
HASP软件锁 用于防止非法拷贝和控制License数量
下面是 InterPhonic系统的产品体系结构和重要组件的相互依赖关系,通过这个图也可以看出iFly TTS SDK各个组件的调用关系:
从图中可以看到,系统运行库是整个系统赖以运行的基础,而本地版标准开发接口是所有TTS应用开发的基础。iFly TTS SDK在TTS运行库与开发者之间建立了一个交互环境,现有的所有合成系统产品都提供统一的开发接口,这使得用户TTS系统的升级非常方便,只需要安装新的TTS运行库后,用户的应用程序就可以直接使用合成效果更好的新版本合成系统了。
安装光盘内容
Runtime:放置运行库的安装程序。
Voclib:放置音库的安装程序。安装光盘中一般提供了几种音库的安装程序,您可以根据需要输出的声音文件的采样率,选择安装其中的一个或多个音库。
系统要求
CPU:PIII800以上
内存:512M
可用硬盘空间:2G以上剩余空间(视具体安装的音库而有所不同)
操作系统:Microsoft Windows 2000/NT/XP/2003
IE版本:IE5.0 以上
提示 如果在Microsoft Windows NT下安装本系统,需要在安装前确认是否已安装了NT Service Pack6。
安装内容
安装运行库:安装系统运行所需的所有资源文件(除音库)和可执行程序、开发包等。
安装音库:安装系统运行所需的声音资源。音库的安装可以根据实际需要安装一个或多个。
安装加密锁:用于防止非法拷贝和控制License的数量。只有安装企业版时才需要额外安装加密锁。
如果定制了音库,还需要在完成以上三个部分的安装后,再安装定制的音库。
卸载方法
删除组件 :从计算机中删除InterPhonic 5.0 系统。
安装运行库 安装运行库,即是安装系统运行时所需的所有资源文件(除音库)、可执行程序和开发包等。
安装运行库
1. 在光驱中放入“InterPhonic 5.0”安装光盘,双击安装程序。
2. 选择安装程序界面语言,单击“OK”。
3. 单击“欢迎”界面中的“下一步”按钮。
4. 阅读许可协议。选择“我接受该许可证协议”,单击“下一步”。
5. 在输入框中分别输入用户名、公司名、产品序列号,选择系统的使用者,然后单击“下一步”。
产品序列号通常能在真品证书上或者CD盒的背面找到。如果输入的号码不被接受,请作如下检查:
确保键盘上的Caps Lock键没有打开。
如果使用右边的小键盘,确保上面的Num Lock键已经打开。
切勿用字母“I”代替数字1。
切勿用字母“O”代替数字0。
安装者可以选择系统的使用者:“使用本机的任何人”或“仅限本人”。选择前者,任何登录本机的用户都可以使用本系统;选择后者,只有当前安装本系统的用户才可以使用。
6. 选择安装目录,然后单击“下一步”。
指定安装目录,请单击“浏览”按钮。
7. 选择是否自动安装加密狗检测程序。单击“下一步”继续。
8. 开始安装InterPhonic 5.0语音合成系统。
安装界面下方的蓝色线条为安装进度条,它会随着程序安装的进度不断增长。在安装过程中,您可以单击“取消”按钮,随时取消安装。
9. 程序文件安装完成后,安装程序会自动安装软件锁的驱动程序。
10. 单击“完成”按钮,结束运行库的安装。
Copyright© 1999-2006 iFLYTEK.
安装音库 音库说明
安装一种音库只能正确输出其支持的采样率下的声音数据文件,请您在安装时根据实际需要选择安装一个或多个音库。
提示在安装16k音库的过程中,安装程序会提示您更换安装光盘。
安装音库
在光驱中放入“InterPhonic 5.0”安装光盘,打开音库文件夹,双击安装程序。
2. 从图示界面中选择安装音库的类型,按“确定”继续。
3. 开始安装音库。在安装过程中,您可以单击“取消”按钮,随时取消安装。
单击“完成”按钮,结束音库的安装。
安装和检测加密锁 加密锁用于企业版中,使用的目的是防止非法拷贝和控制License的数量。
安装加密锁
系统组件中配置的加密锁一般是安装于计算机的并口。如果您的计算机上没有并口或并口损坏无法使用,您可以与我们联系,调换可接于USB口的加密锁。
安装加密锁时,请先根据加密锁的类型,将其插于计算机的并口或USB口处,然后进行运行库的安装。在安装运行库时,安装程序会自动安装加密锁的驱动程序。
如果您在使用过程中出现加密锁的驱动问题,可以手工安装或卸载驱动程序:进入DOS窗口,在安装目录的“bin”子目录下,执行“hinstall.exe –i”安装驱动程序;执行“hinstall.exe –r”卸载驱动程序。
检测加密锁
请先确定加密锁已安装于计算机的并口或USB口,且加密锁驱动程序已安装。
单击“开始”→“程序”→“科大讯飞”→“InterPhonic 5.0”→“加密锁检测程序”。
加密锁检测结果如下图所示,检测内容包括语音合成系统的产品名称、版本、授权数量和授权期限。
删除组件 从计算机中卸载InterPhonic5.0 语音合成系统的全部组件。方法有:
从Windows控制面板卸载
从InterPhonic5.0安装光盘卸载
--------------------------------------------------------------------------------
从Windows控制面板卸载
操作步骤:
在Windows用户界面中单击“开始”-“设置”-“控制面板”-“添加/删除程序”,在“添加/删除程序”对话框的“目前安装程序”列表中选择“InterPhonic 5.0”程序,然后单击“更改/删除”按钮,系统将完成删除动作。
--------------------------------------------------------------------------------
从InterPhonic5.0安装光盘卸载
操作步骤:
在光驱中放入“InterPhonic5.0”安装光盘,双击安装程序。
选择安装程序界面语言,单击“OK”。
选中“删除”,然后单击“下一步”。
单击“下一步”,开始删除组件。
首先卸载的是加密锁的驱动程序。当出现以下界面时,请单击“确定”。
删除组件。在删除的过程中,可以随时单击“取消”,取消删除操作。
单击“完成”,删除成功。
用户界面 单击“开始”菜单→“程序”→“科大讯飞”→“InterPhonic 5.0”→“合成演示程序”,启动程序。
合成演示程序的用户界面由菜单栏、工具栏、格式栏、控制面板、文本编辑区、信息输出栏和状态栏组成。
菜单栏
菜单栏包含了合成演示程序所有的命令控制。
工具栏
工具栏提供了各种常用操作的快捷方式。
格式栏
格式栏用于设置文本编辑区内的文字格式。
控制面板
控制面板用于控制与语音合成有关的操作。
文本编辑区
文本编辑区用于编辑合成文本。合成演示程序合成的就是文本编辑区内的文字。
信息输出栏
信息输出面板显示程序运行时的各种信息的类型及内容。
状态栏
状态栏显示菜单和快捷方式的简要说明。
相关主题
字体设置
提供合成文本 合成系统将从合成文本中提取文字,将其合成为语音。
合成文本的提供有两种方式:
新建文本:在文本编辑区新建一个空白的文本。
打开文本:打开计算机中的文本文件。
--------------------------------------------------------------------------------
新建文本
单击“文件”菜单中的“新建”命令,或单击工具栏中的按钮。
在文本编辑区内输入文字。
打开文本
单击“文件”菜单中的“打开”命令,或单击工具栏中的按钮。
选择文件。
单击“打开”。
提示
合成演示程序对文本还提供保存功能。
单击“文件”菜单中的“保存”命令,或单击工具栏中的按钮,然后指定文件名和要保存文件的位置。
要以不同的名称或不同的位置来保存文件副本,请单击“文件”中的“另存为”命令。然后指定文件名和要保存文件的位置。
在“打开”文件界面中,在“文件类型”列表中选择所要打开的文件类型;在编码列表中选择所要打开文件的文本编码类型。
开始合成 开始合成
合成文本时,可以选择合成一段文字,或合成全部文字。
合成一段文字
在文本编辑区内选中要合成的文字。
单击“合成”菜单中的“开始播放”命令,或者单击工具栏中的按钮。
合成全部文字
直接单击“合成”菜单中的“开始播放”命令,或者单击工具栏中的按钮。
暂停合成
单击“合成”菜单中的“暂停播放”命令,或者单击工具栏中的按钮。
停止合成
单击“合成”菜单中的“停止播放”命令,或者单击工具栏中的按钮。
导出语音文件 合成后的语音可以作为一个文件储存在计算机中,保存的类型是wav或vox。使用音频播放软件(如winamp)可以打开导出的语音文件。
导出步骤
单击“合成”菜单中的“导出到”命令,或者单击工具栏中的按钮。
在“文件名”框中键入文件名。
在“保存类型”框中单击保存类型。
在“语音格式”框中单击语音格式,注意可选的语音格式取决于系统当前所安装音库的采样率,如果仅安装了8K音库,那么导出的音频格式只能是8K采样率的各种格式。
单击“导出”按钮。
注意 导出语音文件的格式受所使用音库格式的影响,系统只能导出与安装音库采样率相同的音频格式。
配置合成引擎 选择“合成”-“配置合成引擎”,可以枚举和设置合成系统所使用的合成引擎。
1. 单击“…”按钮,指定合成系统引擎所在路径;
2. 单击下拉列表框右方箭头,可以查看系统中所有可用的引擎及其位置。
3. 单击“列出引擎”按钮,可以在下方显示该引擎的详细信息。
调整语速 输出语音速度的快慢称为语速。在InterPhonic语音合成系统中,语速值越大,合成语音播放的速度越快。
合成语速可调节的范围在-500~+500之间。数值越小,语速越慢,系统默认的语速值是0。
调整时,请用鼠标左键单击滑块,按住不动,拖至满意的语速时松开鼠标。在拖动滑块时,右边变动的数值即是滑块当前所处位置的语速值。
调整音高 音高即声音的频率。频率越高,发出的声音越尖锐;频率越低,发出的声音也越低沉。
合成音高可调节的范围在-500~+500之间。数值越小,声音越低沉,系统默认的音高值是0。
调整时,请用鼠标左键单击滑块,按住不动,拖至满意的音高时松开鼠标。在拖动滑块时,右边变动的数值即是滑块当前所处位置的音高值。
调整音量 音量即声音的能量。音量越大,声音越大;音量越小,声音越小。
音量可调节的范围在-20~+20之间。数值越小,声音越小,系统默认的音量值是0。
调整时,请用鼠标左键单击滑块,按住不动,拖至满意的音量时松开鼠标。在拖动滑块时,右边变动的数值即是滑块当前所处位置的音量值。
选择音库 合成系统将拼音信息转换成声音数据时使用的基本资源,称为音库。
选择音库
单击“使用音库”旁的按钮,在下拉菜单中单击音库名称。
注 上图所示是安装了8K音库后“使用音库”中提供的选项。
提示 不同的音库使用的采样率不同,合成的音质效果也不相同。如果在安装运行库时,只安装了一种音库,那么合成时,只会正确输出该音库下的声音数据,对其它音库下的声音数据文件无法输出正确的声音数据。
设置自定义包 对于证券等特殊行业,合成文本中会经常性地出现行业术语,为保证合成后这些术语的发音正确,有时需要定制一些行业专用的资源包。在合成演示程序中,您可以选择是否加载这种自定义的资源包。
设置自定义包
单击“自定义包”旁的按钮,在下拉菜单中单击处理方法。
提示
“不加载自定义包”:不使用自定义资源包,合成效果一般。
“自定义资源”:使用自定义资源包,增强合成效果,适用于对特殊文本的合成。例如:在处理证券行业的文本时,加载证券包后的合成效果比不加载要好。
设置背景音 单击“背景音”旁的按钮,在下拉菜单中单击处理方法。
“不使用背景音”:合成的语音文件中不出现背景音乐,这是默认形式。
背景音乐名称:就是在合成的语音文件中应用所选背景音乐。
注意
1. 启用背景音乐时,默认情况下,合成以后的语音文件中通篇都将应用同一段背景音乐。如果只需要在被合成文本某些地方使用背景音乐,或者对不同语句应用不同的背景音乐,应当在被合成文本的适当位置添加CSSML标记,例如:
<?xml version="1.0" encoding="GB2312"?>
<speak>
<environment repeat="yes" src="id:1">总理温家宝在纽约联合国总部同秘书长安南会谈后提到,中国理解台湾同胞渴望民主的强烈愿望,但是台湾当局内部的分裂势力试图利用民主作为借口,来掩盖他们搞台独的野心,这才是问题的实质。这是中国政府所不能容许的。但是,温家宝指出,只要还有和平统一的希望,中国政府就不会放弃争取和平统一的努力。安南秘书长指出,联合国恪守一个中国的政策,但同时强调台湾海峡两岸的分歧不应该通过武力手段来解决。</environment>
<environment repeat="no" src="name:日光海岸">寒冷气候使人体氧化功能加强,肌体维生素代谢也发生了明显变化,饮食中要及时补充维生素B2(核黄素),以防口角炎、唇炎、舌炎等疾病的发生。它主要存在于动物肝脏、鸡蛋、牛奶、豆类等食物中。而维生素A能增强人体的耐寒力,应多吃一些富含维生素A的肝脏、胡萝卜、南瓜、白薯等食物。维生素C也可提高人体对寒冷气候的适应能力,对血管具有良好的保护作用,应注意摄取新鲜蔬菜和水果。</environment >
<environment repeat="yes" src="c:\angel.wav">Windows2000的默认安全设置可以概括为对4个默认组(Administrators组、Power Users组、Users组、Backup组)和3个特殊组的权限许可。
可以将Windows安装程序配置成使用组策略和Active Directory管理计算机的安装选项。</environment >
</speak>
2. 在CSSML标记中引用背景音文件可以有三种形式:
用背景音名称:<environment src="name:背景音名称"></environment >
用背景音编号:<environment src="id:2"></environment >
用背景音文件路径:<environment src="d:\music.wav"></environment > (当使用文件方式时,系统只支持与当前合成语音采样率相同且量化比特位数为16Bit的Wav或PCM文件,不支持压缩格式的任何文件。)
设置合成链接 单击“合成链接”旁的按钮,在下拉菜单中单击文本中URI的处理方式。
“URI处理成字符串”:被合成文本中的URL部分将以字符串形式读出,这是默认形式。
“URI替换成目标文本”:合成系统将把被合成文本中的URL替换成所指向的目标文本,并将该目标文本合成为语音输出。
InterPhonic 5.0合成系统能够支持三种类型的URI合成:
1. 本地文件,格式为file:///drive:/file.txt,例如file:///c:/text.txt;
2. http方式的URI,格式为http://xxx.xxx/xx/x.txt,例如http://www.iflytek.com/demo.txt;
3. FTP文件,格式为ftp://user:passwd@xxx.xxx/path/file例如ftp://ftp.iflytek.com/pub/demo.txt;
InterPhonic 5.0系统启用URI合成功能的方式是:
通过文本类型参数,如果用户指定输入的文本类型为TTS_TT_URI,在用户送入的合成文本中包含有URI标识,那么合成系统就会从该地址下载文本进行合成。
注意
取得文本的支持类型为合成系统目前支持的文本类型:纯文本和CSSML格式的文本。
选择文本类型 文本类型是指合成文本的类型。
选择文本类型
单击“文本类型”旁的按钮,在下拉菜单中单击文本类型的名称。
您可以选择由系统自动识别文本,或将文本类型指定为一般文本、CSSML文本、SSML文本或者EMail文本。
提示
在进行Email语音合成时,必须将文本类型设定为“Email文本”。
载入的Email文件必须完整,否则合成可能出错。
可以通过注册表项(HKEY_LOCAL_MACHINE\SOFTWARE\iFly Info TEK\InterPhonic\addin\email\param),选择 设置是否合成邮件头内容和是否合成文本类型(*.txt)的附件。
系统会根据Email文本的内容,把邮件头中的字段名称转译成中文或英文。
设置预录音 单击“预录语音”旁的按钮,在下拉菜单中单击处理方法。
提示
“禁用替换功能”:合成的语音文件中不出现预录语音,这是默认形式。
“启用替换功能”:就是在合成的语音文件中应用预录音。在语音合成过程中,系统将自动比较被合成文本与预录音资源,并将被合成文本中与预录音文本完全相同的内容替换成该预录语音。另外,如果需要替换被合成文本中指定位置的文字,应当使用CSSML的audio标记,其src属性值指定为该预录音的名称,例如:
<?xml version="1.0" encoding="GB2312"?>
<speak>
下面是一段录音:
<audio src="name:预录音名称"/>
</speak>
注意
1. 为了与文本中使用audio标记插入音频文件的格式(如:<audio src="d:\ding.wav"/>)相区别,预录音名称前需加入“name:”。
2. 预录语音替换的最大文本长度是4K字节。
选择标点读法 不读出标点:单击“标点读法”旁的按钮,在下拉菜单中单击“不读标点”。
读出标点:单击“标点读法”旁的按钮,在下拉菜单中单击“读出标点”。
提示在缺省的情况下,除符号“#\>=</*-+”以外,一般的标点符号都不会发音。系统未知的标点符号在任何情况下都不会发音。
举例:“凤凰台上凤凰游,凤去台空江自流。
选择不读标点,发音为:凤凰台上凤凰游凤去台空江自流。
选择读出标点,发音为:凤凰台上凤凰游逗号凤去台空江自流句号。
设置回车符的处理 单击“回车处理”旁的按钮,在下拉菜单中单击处理方法。
提示
“系统默认”:程序根据回车符前后的语流环境,自动决定处理的方法。
“分句”:将回车符作为分句符,代表句子或段落的结束。
“忽略”:自动忽略回车符,不加处理。
“作为空格”:将回车符当作空格符处理。
设置数字的读法 单击“数字读法”旁的按钮,在下拉菜单中单击处理方法。
提示
“自动(缺省读值)”:合成演示程序根据数字串前后的语流环境,自动决定处理的方法。当该数字串无法按系统规则处理时,将按数值发音。
“一律按数值读”:所有数字串皆按数值发音,如“98”读成“九十八”。
“一律按数字串读”:所有数字串按数字发音,如“98”读成“九”“八”。
“自动(缺省读串)”:合成演示程序根据数字串前后的语流环境,自动决定处理的方法。当该数字串无法按系统规则处理时,将按数字串发音。
设置英文的读法 单击“英文读法”旁的按钮,在下拉菜单中单击处理方法。
提示
“自动(缺省按单词读)”:合成演示程序根据英文单词前后的语流环境,自动决定处理的方法。当英文单词不是英文词库中收录的单词时,系统将按照一定的规则读成单词。
“一律按字母读”:所有英文单词皆按字母发音,如“book”读成“b”“o”“o”“k”。
“自动(缺省按字母读)”:合成演示程序根据英文单词前后的语流环境,自动决定处理的方法。当该英文单词不是英文词库中收录的单词时,系统将按照字母发音。
选择文本编码 合成演示程序可以合成用以下内码编写的文字:GB2312、GBK、BIG5、UNICODE等,如下图所示。其中,GB2312编码是程序的工作字符集。
选择文本编码
单击格式栏中的“文本编码”,在下拉菜单中单击内码名称。
提示
对于使用GBK、BIG5、UNICODE编码的文本,程序先将其转化为内部可识别的GB2312编码文本,再进行合成。如果某些字没有对应的简体字,则合成时会将这些字发“rong2”(“榕”音)。
对于不使用GBK、BIG5、UNICODE编码的文本,在文本编辑区打开时会显示为乱码,只有选择了正确的文本编码后才会正确显示文本内容。
对于文本编码类型的选择,请注意保持文本编码与合成文本的一致性。
正在编辑的文本不能进行编码类型的切换,需要保存以后才能切换。
资源管理中心概述 资源管理中心程序是InterPhonic语音合成系统的管理中枢,管理着所有对系统和语音合成有影响的参数和资源。资源管理中心中的设置会影响注册表和资源文件等全局资源,因此如果进行了修改,更新的内容在合成系统下次启动之后才能生效。
提示
1. 如果没有特别说明,对合成参数的更改通常只影响一路的合成效果,而不会影响到其他路数的合成效果,即合成参数产生的效果一般是局部的,而不是全局的。
2. 由于繁体限制,繁体版的资源管理中心用户界面中删除了管理外部规则资源功能。
相关链接:
资源管理中心用户界面介绍 管理系统资源 管理资源包
用户界面 单击“开始”菜单→“程序”→“科大讯飞”→“InterPhonic 5.0”→“资源管理中心”。
用户界面由菜单栏、工具栏、资源视图、帮助视图、信息视图和状态栏组成。
菜单栏
菜单栏包含了资源管理中心所有的命令控制。在以下的章节中,您将了解到如何使用这些命令。
工具栏
工具栏提供了各种常用命令的快捷按钮,如保存、查找和更新等。
资源视图
资源视图以树形结构显示系统各种类型资源的名称。
帮助视图
帮助视图给出了对当前资源页面的提示信息。
信息视图
信息视图是资源信息的显示区,随资源视图中焦点的改变而更新显示的信息,并提供给用户修改设置的各类界面元素。
状态栏
状态栏显示菜单和快捷方式的简要说明。
如果您对工具栏中的某一快捷方式的用途不清楚,请将鼠标放于快捷方式上,查看简要说明。
相关主题
显示界面设置
管理系统资源 系统资源概述
合成系统在合成过程中使用的各种外部的文件,统称为资源。如规则库、词库、音库等。
系统资源是当前已安装的语音合成系统的自身情况,它的信息是通用的信息,不与具体资源相关联。
提示对系统资源做的修改对所有路数的合成效果皆有影响。
设置系统资源
系统资源是当前已安装的语音合成系统的自身情况,它的信息是通用的信息,不与具体资源相关联。
单击快捷方式中的“系统设置”图标,或者单击资源视图中的“系统设置”。
查看显示信息。可以更改的设置是“系统安装路径”,更改时单击按钮,选择路径,然后单击“确定”。
需要保存设置,请单击帮助视图内的“保存现有设置”;不需要保存,请单击帮助视图内的“放弃设置”。
参数影响影响所有路数的合成效果。
配置资源包 设置资源包的位置,可以单击按钮,选择路径,然后单击“确定”。
设置资源包的属性,可以单击按钮,在下拉菜单中单击设置的内容。
对其他参数的配置,请直接在输入框中输入设置内容。
配置标准资源包:
配置自定义资源包:
系统日志 InterPhonic语音合成系统提供了系统运行日志的功能,用于记录系统的运行情况以及作为排除某些系统错误的依据。
设置系统日志的方法:
使用“资源管理中心”程序,在“系统设置”界面中设置日志选项。该设置会影响到本计算机上所有的合成服务,因此如果合成系统已经在运行,改动将在下次重新运行时才生效。
各选项说明:
1.记录等级
根据日志记录信息的详细程度不同,系统日志分成三个等级:
(1)记录运行中的错误信息,错误信息是合成系统运行过程中严重错误的记录,这些错误可能会造成系统运行不正常或无法运行。
(2)记录运行中的警告信息,警告信息是合成系统运行过程中一些不太严重的错误记录,这些警告可能会使合成系统某些功能不能正常使用。
(3)记录一般信息,是合成系统正常情况下的运行记录,但这种信息内容较多,记录这些信息会影响合成系统的性能。
用户可以根据需要选择其中的一项或几项。
2.日志信息
日志最大尺寸:日志文件的大小可以是1M~1024M。
日志写满后处理方式:删除旧日志文件、备份旧日志文件。
日志文件路径:合成系统会设置日志文件的默认路径,用户也可以根据需要自行选择日志文件路径。
配置资源包缺省参数 配置前请注意:对资源包合成参数的设置将影响所有的合成服务。
资源包缺省合成参数配置窗口如下图所示:
设置文本内码
参数值:GB2312中文简体、GBK中文繁体、Big5中文繁体、Unicode。
各文本内码之间的区分请参见“汉字编码方式”。
缺省文本内码是指GB2312中文简体。
设置文本类型
普通文本:通知系统被合成文本是普通.TXT文本。
CSSML标记文本:通知系统被合成文本是CSSML标记文本。
让系统自动识别文本类型:系统将自动识别被合成文本的类型。
输出音频数据格式
音频数据格式即合成输出的语音数据的格式,能支持的格式与已经安装的音库采样率有关。
系统支持的音频数据格式有PCM、aLAW、uLAW、ADPCM和VOX格式等。
以安装了8k音库为例:
缺省格式:系统在输出声音数据时,按缺省值将其格式设置为PCM 8K16B1C。
PCM 8K8B1C:输出的声音数据的格式都设置为PCM 8K8B1C。
PCM 8K16B1C:输出的声音数据的格式都设置为PCM 8K16B1C。
Alaw 8K1C:输出的声音数据的格式都设置为Alaw 8K1C。
Ulaw 8K1C:输出的声音数据的格式都设置为Ulaw 8K1C。
ADPCM-G721 8K4B1C:输出的声音数据的格式都设置为ADPCM-G721 8K4B1C。
ADPCM-G723 3B1C:输出的声音数据的格式都设置为ADPCM-G723 3B1C。
ADPCM-G723 5B1C:输出的声音数据的格式都设置为ADPCM-G723 5B1C。
VOX 8K1C:输出的声音数据的格式都设置为VOX 8K1C。
输出音频头格式
合成系统在每次输出声音数据时,声音数据开始部分携带的格式描述信息(包括采样率、量化比特数、压缩方式等),称为音频数据头。
声音文件是由音频数据头和声音数据拼接得到的。在进行合成时,需要对音频头格式进行正确处理,否则生成的声音数据文件在播放时会出现杂音。
缺省头格式:输出文件中包含44字节音频数据头,只有在输出格式为Wave PCM时才有意义。
不输出音频头:输出文件中不包含音频数据头。
标准头格式:输出文件中包含标准格式音频数据头,根据具体格式头长度可能为 44(标准PCM格式)、58(Alaw和Ulaw)或0字节(Vox格式)。
回车符号的处理
回车符在文本的不同处代表着不同的涵意,合成时系统需要对其进行分析,给出不同的处理方式。例如:代表句子或段落结束的回车符应作为分句的标志;用户为对齐文本而强行加入的回车符应该被系统过滤。
自动处理:系统根据回车符前后的语流环境,自动决定处理的方法。
遇到回车进行分句:将回车符做为分句符,代表句子或段落的结束,合成语音会在此处有停顿。
忽略:忽略回车符,不加处理。
按空格处理:将回车符当做空格符处理。
标点符号发音
在缺省的情况下,除了符号“#\>=</*-+”外,一般的标点符号在合成时不发音。
不发音:遇到标点符号时,不发音。
总是发音:遇到标点符号时,根据符号列表中设定的拼音发音。
数字串读法
自动(缺省按值发音):系统根据数字串前后的语流环境,自动决定处理的方法。当该数字串无法按系统规则处理时,将按数值发音。
按值发音:所有的数字串都按数值发音,如“98”读作“九十八”。
按数字发音:所有的数字串都按数字串发音,如“98”读作“九”“八”。
自动(缺省按数字发音):系统根据数字串前后的语流环境,自动决定处理的方法。当该数字串无法按系统规则处理时,将按数字串发音。
英文单词读法
自动处理:系统根据英文单词前后的语流环境,自动决定处理的方法,缺省按词发音或缺省按字母发音。
一律按字母发音:将英文单词拆分成字母发音,如“book”读作“b”“o”“o”“k”。
合成语速
设置的值越大,语速越快。
合成音量
设置的值越大,声音越大。
合成音调
设置的值越大,声音越高。
最大断句长度(字符个数)
“断句”,是指为了方便合成系统对文本进行处理,而将待合成文本切分成通常意义上的“句子”。一般而言,合成系统在遇到半角字符“!”“ ?”“ ;”,全角字符“。”“,”“;”“!”“?”时将进行断句。如果没有遇到,在字符数量达到最大断句长度时强行切分(系统尽量在空格处断句)。
“最大断句长度”,是指如果文本中没有特定的断句标点符号时,合成系统会强行断句的最大字符数量。
当文本中没有特定的断句标点符号时,系统强行断句的字符数量与设定的值有关。
输出缓冲区大小
合成系统对外输出语音时用于保存声音数据的缓存区,称为输出缓冲区。较大的输出缓冲区可以一次获得较多的声音数据;较小的缓冲区可以减少在高密度应用中合成系统对内存资源的消耗。
输出缓冲区的值设置得越大,对内存资源的消耗越多,一次性获得的声音数据也越多。
管理音库概述 音库是合成系统保存合成需要的语音数据的基本资源。音库的正确使用是合成高质量语音的必要条件。
本系统允许同时安装多个音库。您可以在资源管理中心中,对这些音库进行管理:设置缺省音库、查看音库属性。
单击快捷方式中标准资源下的“音库”图标,或者单击资源视图中标准资源下的“音库”。
设置缺省音库 在没有设置输出音频格式时,系统会使用缺省音库进行合成。但是,如果已设置了输出音频格式,系统将仍然按设定的音频格式输出语音文件。
设置缺省音库
选中音库。
单击帮助视图内的“设置缺省音库”。
单击“文件”菜单中的“保存”命令。
提示
要快速设置选中的音库为缺省音库,可以单击鼠标右键菜单中的“设置为缺省音库”。
要快速保存设置的内容,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存设置”。
参数影响只对当前的资源包有效,不对其它资源包产生影响。
查看音库属性 单击快捷方式中的“音库”图标,或者单击资源视图中的“音库”。
单击“资源”菜单中的“属性”命令。
提示要快速查看属性,可以单击工具栏按钮,或者单击鼠标右键菜单中的“属性”。
添加汉语词 单击帮助视图内的“添加新词语”。
在“词语”栏输入汉字(字数在2~20个之间)。
在“词性”栏单击按钮,在下拉菜单中单击词性。
在“节奏”栏输入词语朗读节奏(汉语和粤语词)。
在“中文拼音/英文音标”栏输入拼音,用英文字母加数字的方式表示,其中“0”表示轻声;“1”表示阴平,“2”表示阳平,“3”表示上声,“4”表示去声 ,例如“此”的拼音表示为“ci3”;如果是粤语词语,在“粤语拼音”栏输入粤语读音(系统会自动给出,用户可以根据需要调整)。
单击“文件”菜单中的“保存”命令。
提示
在为汉语词注音时,拼音间请用“,”或“:”或空格分隔。
要快速添加新词,可以双击信息视图的空白处,或者单击鼠标右键菜单中的“向词库中添加新词”,或者直接按Insert键。
要快速保存设置,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响
只影响当前的一路合成效果,不影响其他路数的合成效果。
自定义词库中添加的词组信息会对分词产生影响,自定义的拼音也会影响汉字的发音。
添加英文词 单击帮助视图内的“添加新词语”。
在“词语”栏输入英文单词。
在“词性”栏单击按钮,在下拉菜单中单击词性。
鼠标左键单击帮助视图内的音标,为英文单词添加注音。
单击“文件”菜单中的“保存”命令。
提示
要快速添加词,可以双击信息视图的空白处,或者单击鼠标右键菜单中的“向词库中添加新词”,或者直接按Insert键。
要快速保存设置,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响
只影响当前的一路合成效果,不影响其他路数的合成效果。
自定义词库中添加的词组信息会对分词产生影响,自定义的拼音也会影响英文的发音。
修改词 1. 在词语列表中单击词。
2. 修改需更新的部分。
3. 单击“文件”菜单中的“保存”命令。
提示
要快速保存设置,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只影响当前的一路合成效果,不影响其他路数的合成效果。
删除词 1. 在词语列表中单击词。
2. 单击帮助视图中的“删除现有词语”。
3. 在系统弹出的对话框中单击“是”。
4. 单击“文件”菜单中的“保存”命令。
提示
从词库中删除词语可能会导致合成某些文本时,合成效果降低。
要快速删除词,可以单击鼠标右键菜单中的“从词库中删除该词”。
要快速保存设置,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只影响当前的一路合成效果,不影响其他路数的合成效果。
导入词 汉语词可以批量的导入到词库中。在导入词语之前,需要建立一个文本文件用于放置等待导入的词语。在该文件中,词、词性和拼音之音必须以空格分隔,一行只能书写一个词。如:
--------------------------------------------------------------------------------
北海名词 否 2 bei3hai3
说 动词 否 1 shuo1
白 形容词否 1 bai2
--------------------------------------------------------------------------------
拼音采用英文字母加数字的方式表示,其中“0”表示轻声,“1”表示阴平,“2”表示阳平,“3”表示上声,“4”表示去声。
导入词在词库中的表示形式如下图:
导入词
单击“文件”菜单中的“导入”命令。
选择存放词的文本文件,单击“打开”。
单击“文件”菜单中的“保存”命令。
提示
要快速导入词,可以单击鼠标右键菜单中的“导入”。
要快速保存导入的内容,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只影响当前的一路合成效果,不影响其他路数的合成效果。
导入词 汉语词可以批量的导入到词库中。在导入词语之前,需要建立一个文本文件用于放置等待导入的词语。在该文件中,词、词性和拼音之音必须以空格分隔,一行只能书写一个词。如:
--------------------------------------------------------------------------------
北海名词 否 2 bei3hai3
说 动词 否 1 shuo1
白 形容词否 1 bai2
--------------------------------------------------------------------------------
拼音采用英文字母加数字的方式表示,其中“0”表示轻声,“1”表示阴平,“2”表示阳平,“3”表示上声,“4”表示去声。
导入词在词库中的表示形式如下图:
导入词
单击“文件”菜单中的“导入”命令。
选择存放词的文本文件,单击“打开”。
单击“文件”菜单中的“保存”命令。
提示
要快速导入词,可以单击鼠标右键菜单中的“导入”。
要快速保存导入的内容,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只影响当前的一路合成效果,不影响其他路数的合成效果。
导入词 汉语词可以批量的导入到词库中。在导入词语之前,需要建立一个文本文件用于放置等待导入的词语。在该文件中,词、词性和拼音之音必须以空格分隔,一行只能书写一个词。如:
--------------------------------------------------------------------------------
北海名词 否 2 bei3hai3
说 动词 否 1 shuo1
白 形容词否 1 bai2
--------------------------------------------------------------------------------
拼音采用英文字母加数字的方式表示,其中“0”表示轻声,“1”表示阴平,“2”表示阳平,“3”表示上声,“4”表示去声。
导入词在词库中的表示形式如下图:
导入词
单击“文件”菜单中的“导入”命令。
选择存放词的文本文件,单击“打开”。
单击“文件”菜单中的“保存”命令。
提示
要快速导入词,可以单击鼠标右键菜单中的“导入”。
要快速保存导入的内容,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只影响当前的一路合成效果,不影响其他路数的合成效果。
导出词 将词库的内容保存为文本文件,放置在计算机中。当需要重装系统或在多台机器中使用同一词库时,可以直接将保存过的文本文件导入。
导出词
1. 单击“文件”菜单中的“导出”命令。
2. 选择存放处,单击“保存”。
提示
要快速导出词,可以单击鼠标右键菜单中的“导出”。
查看词库属性 1. 单击快捷方式中的“词库”图标,或者单击资源视图中标准资源下的“词库”。
2. 单击“资源”菜单中的“属性”命令。
提示要快速查看属性,可以单击工具栏按钮,或者单击鼠标右键菜单中的“属性”。
添加新规则 以添加新规则“C:\Windows的读法”为例:
1. 单击帮助视图内的“添加一条新的合成规则”,开启规则向导。
2. 在“规则名称”栏输入新规则的名称:C盘Windows。
在“规则权值”栏输入8888。权值代表规则的重要程度,输入的数值越大,表示该规则越重要,权值的范围在1~9999间。
在“描述信息”栏输入对规则的描述,这主要是为了分辨规则。
单击“下一步”。
3. “节点”是语音合成系统中文本处理的基本单位,一条规则可以包含对一个或多个节点的条件和处理。
在本例中,新规则由英文节点和符号节点组成。单击“规则向导”中的“英文节点”和“符号节点”。
4. 选定节点后,需要对节点应满足的条件进行设置。
a)单击节点“英文[1]”。

i.单击条件,对条件本身进行描述。
ii.单击 按钮,选择一种描述方式,在其后的输入栏中输入条件内容。设置完毕请单击“确定”。
如果选择的描述方式是“包含在”,那么还需要设置搜索的队列:在“添加搜索条件”栏中输入条件,单击“添加”按钮。(注:搜索条件可以为多个)
iii.重复上述步骤,为每个节点都设置限制条件。
5. 设置完节点应满足的条件后,请单击“下一步”。
6. 对节点的处理方式进行描述。
i.单击节点“英文[1]”。
ii.双击处理方式。(注:处理方式可以是多个)
iii.对处理方式本身进行描述。由于节点“英文[1]”设置的处理方式是“缺省处理”,所以不需要再进行描述。
有些处理方式需要对其本身进行必要的描述,如设置节点“符号[1]”的处理方式,选择处理方式为“拼音设为”。单击“拼音设为...”,描述处理方式。
输入描述信息,单击确定。
iv.重复上述步骤,为每个节点都设置处理方式。
7. 设置完所有节点的处理方法后,请单击“下一步”。
缺省的情况下拼接向导将前面的所有节点拼接成一个新节点,调整节点前后次序就可以改变节点的合成次序,即调整到前面的节点将先发音。通过对节点的合理拼接可以改善合成效果,提高节奏感。
要将“C盘”拼接到一个节点必须的步骤如下:
选中被拼接的节点“英文[2]”,单击“提升层次”按钮。
获得如下的结果,表明了节点“英文[2]”不再是“新节点[1]”的子节点,这样做的目的是提高合成的节奏感,现在是“C盘 Windows”而不是此前的“C盘Windows”。
另外在一些特殊的情况下,通过“添加”按钮新增一节点,通过“编辑”对新节点设置一些处理,设置方式和规则处理部分相似,也可以“删除”新增的节点。
完成规则拼接部分的操作后,单击“完成”,退出规则向导。
8. 单击“文件”菜单中的“保存”命令。
提示
要快速添加新规则,可以双击信息视图的空白处,或者单击鼠标右键菜单中的“添加新规则”。
要快速保存设置,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只对当前的资源包有效,不对其它资源包产生影响。
修改规则 1. 选中规则。
2. 单击鼠标右键选择“查看/编辑规则信息”。
3. 按添加新规则的方法修改规则。
4. 单击“文件”菜单中的“保存”命令。
提示
要快速保存设置,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只对当前的资源包有效,不对其它资源包产生影响。
删除规则 1. 选中规则。
2. 单击鼠标右键选择“删除规则”。
3. 单击“文件”菜单中的“保存”命令。
提示
要快速保存设置,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只对当前的资源包有效,不对其它资源包产生影响。
查看外部规则属性 1. 单击快捷方式中的“外部规则”图标,或者单击资源视图中标准资源下的“外部规则”。
2. 单击“资源”菜单中的“属性”命令。
提示要快速查看属性,可以单击工具栏按钮,或者单击鼠标右键菜单中的“资源属性”。
添加新标点 1. 单击帮助视图内的“添加一个标点符号”。
2. 在“标点符号”栏输入标点符号。
3. 在“发音方式”栏单击按钮,在下拉菜单中单击发音方式:总是发音——在任何情况下都发音;自动方式——由系统对标点符号的前后语流环境进行分析,自动选择处理方式。
4. 在“停顿”栏输入停顿时间,以毫秒为单位。
5. 在“汉语拼音”栏输入拼音。拼音用英文字母加数字的方式表示。其中“0”表示轻声;“1”表示阴平,“2”表示阳平,“3”表示上声,“4”表示去声。例如“中”的拼音表示为“zhong1”。
6. 单击“文件”菜单中的“保存”命令。
提示
只支持对全角符号的设置。
如果不想让某个标点符号发音,又不愿意将其删除,您可以将其的发音设为空值。
要快速添加标点符号,可以单击鼠标右键菜单中的“添加新符号”。
要快速保存设置,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只对当前的资源包有效,不对其它资源包产生影响。
修改标点 1. 在标点符号列表中单击标点符号。
2. 修改需更新的部分。
3. 单击“文件”菜单中的“保存”命令。
提示
要快速保存设置,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只对当前的资源包有效,不对其它资源包产生影响。
删除标点 1. 在标点符号列表中单击标点符号。
2. 单击帮助视图中的“删除选定的标点符号”。
3. 在系统弹出的对话框中单击“是”。
4. 单击“文件”菜单中的“保存”命令。
提示
要快速删除符号,可以单击鼠标右键菜单中的“删除符号”。
要快速保存设置,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只对当前的资源包有效,不对其它资源包产生影响。
查看标点符号属性 1. 单击快捷方式中的“标点符号”图标,或者单击资源视图中标准资源下的“标点符号”。
2. 单击“资源”菜单中的“属性”命令。
提示要快速查看属性,可以单击工具栏按钮,或者单击鼠标右键菜单中的“属性”。
添加新的数字策略 1. 单击帮助视图内的“添加一条新规则”。
2. 在“数字规则”栏输入新的数字处理规则。
3. 单击“文件”菜单中的“保存”命令。
提示要快速保存设置,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只对当前的资源包有效,不对其它资源包产生影响。
修改数字策略 1. 在数字规则列表中单击需要修改的数字规则。
2. 修改需更新的部分。
3. 单击“文件”菜单中的“保存”命令。
提示要快速保存设置,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只对当前的资源包有效,不对其它资源包产生影响。
删除数字策略 1. 在数字规则列表中单击需要删除的数字规则。
2. 单击帮助视图中的“删除选定的规则”。
3. 在系统弹出的对话框中单击“是”。
4. 单击“文件”菜单中的“保存”命令。
提示
要快速删除符号,可以单击鼠标右键菜单中的“删除选定规则”。
要快速保存设置,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只对当前的资源包有效,不对其它资源包产生影响。
添加预录音 1. 单击帮助视图内的“添加一条新的预录音”。
2. 在“选择预录音文件”弹出界面中选择预录音文件路径,单击“下一步”继续。
3. 在“设置预录音属性”界面中输入预录音属性,单击“下一步”继续。
4. 在“转化预录音格式”界面中进行预录音格式转换,并试听效果。
5. 单击“文件”菜单中的“保存”命令,保存自定义资源。
说明
预录语音信息的设置只对当前的资源包有效,不对其它资源包产生影响。上面图示中各项的意义:
预录音文件:是指与当前所设置预录语音相匹配的预录语音文件的位置。
语音文件格式:当系统能够识别预录语音文件格式的时候,采样率选择框变灰;反之,则需要指定语音文件格式。格式说明:
PCM 6K8B1C:6k8bit单声道pcm数据
PCM 6K16B1C:6k16bit单声道pcm数据
PCM 8K8B1C:8k8bit单声道pcm数据
PCM 8K16B1C:8k16bit单声道pcm数据
以此类推;
ALAW 6K1C:6k单声道alaw数据
ALAW 8K1C:8k单声道alaw数据
ALAW 11K1C:11k单声道alaw数据
以此类推;
VOX6K1C: 单声道6k的vox数据
VOX8K1C:单声道8k的vox数据
音库标志:选择匹配音库类型。
名称:当前所设置的预录语音标题,也即该预录语音文件的文件名。需要用户输入,长度不大于32个字符。
是否生效:表示当前所设置的预录语音是否立即启用。只有在生效的情况下,合成文本中才能使用预录语音。
文本:当前所设置的预录语音的文字内容。需要用户输入,长度不大于4K字符(注意:最后的字符不能是标点符号或空格)。
语音数据嵌入到系统资源中:用户选择是否将预录音语音数据嵌入到系统的音库资源中,如果不选择,则合成系统用到该预录音时将从按照文件路径调用;如果选择嵌入,则该预录音作为音库资源存在,合成系统用到该预录音时直接从相关音库中调用,建议使用嵌入模式。
试听功能:单击“试听”按钮,可以试听当前正在设置的预录语音。用户可以根据需要调整预录语音的音量大小。预录语音后面的女声“科大讯飞语音合成系统”是系统自动加入的合成语音,目的是帮助用户根据合成语音的音量调整预录语音的音量,使之更好地符合合成文本的整体风格。单击“停止”按钮结束试听。
删除预录音 1. 在预录语音列表中单击需要删除的预录语音。
2. 在预录音帮助页面内选择“删除选定的预录音”。
3. 在系统弹出菜单中选择“是”。
4. 单击“文件”菜单中的“保存”命令,保存自定义资源。
提示要快速保存设置,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只对当前的资源包有效,不对其它资源包产生影响。
添加背景音 1. 单击帮助视图内的“添加一条背景音”。
2. 在“选择背景音文件”弹出界面中选择背景音文件路径,单击“下一步”继续。
3. 在“设置背景音属性”界面中设置背景音编号、是否重复播放,并填写背景音名称和背景音的文本信息。单击“下一步”继续。
4. 在“转化背景音格式”界面中单击“开始”,系统进行背景音格式转换。单击“试听”按钮试听合成效果;单击“完成”退出设置。
5. 单击“文件”菜单中的“保存”命令,将新的背景音信息保存到自定义资源。
说明
背景音信息的设置只对当前的资源包有效,不对其它资源包产生影响。上面图示中各项的意义:
编号:当前所设置的背景音在背景音库中的编号,自动显示。
时长:正常情况下,当前背景音的播放时间,自动显示。
重复播放背景音:在语音合成过程中,应用当前背景音时,是否重复播放。用户选择。
名称:当前背景音的名称。在背景音库中,背景音文件的名称必须唯一,长度不大于36字符。
描述:对当前背景音的简单说明,长度不大于256字符。
混音比例:在进行语音合成时,背景音与合成语音的音量比例。取值范围:0~0.6,值越大,背景音音量越大;取值为零,表示背景音为静音。
试听功能:单击“试听”按钮,可以试听当前正在设置的背景音。单击“停止”按钮结束试听。
删除背景音 1. 在背景音列表中单击需要删除的背景音。
2. 在背景音帮助页面内选择“删除选定背景音”。
3. 在系统弹出菜单中选择“是”。
4. 单击“文件”菜单中的“保存”命令,保存自定义资源。
提示要快速保存设置,可以单击工具栏按钮,或者单击鼠标右键菜单中的“保存”。
参数影响只对当前的资源包有效,不对其它资源包产生影响。
标准安装的资源包 标准配置的合成系统安装后,一般情况下将包含两个资源包:“标准资源包”和“自定义资源包”。除“标准资源包”之外的任何资源包都属于定制包。
标准资源包
这是系统运行不可缺少的资源包,他包含了TTS合成所必须的资源支持,任何定制的资源包必须在他的基础上产生作用。这个资源包中的资源大多数不能修改。
自定义资源包
这是系统内置的一个空的定制资源包,用户可以使用资源管理中心对这个包进行定制:添加自定义词、修改符号的发音和停顿时长。用户也可以不使用这个资源包,只需要在资源管理中心中将这个包的属性指定为“一般用户自定义包”即可。
安装定制包 为了一些特殊的应用场合的需要,InterPhonic 5.0 系统会提供相应的定制包,这些定制包包含定制音库、定制词库和定制规则库等。
在标准安装后如果安装了定制包,合成系统将包含三个资源包:“标准资源包”、“自定义资源包”和“定制资源包”,同时该定制资源包将会成为缺省资源包。这样,在TTS开发中,每个合成实例将缺省使用该定制包的所有特性。
注意
不同应用场合的定制包是不同的,一个定制包只能改善相同类型应用的合成效果,同时可能会影响其他场合的效果。例如如果安装了天气预报包后,如果合成股评信息,将不会产生任何效果。
多个资源包的使用 当系统中存在多个定制资源包时,就必须指定缺省的定制包,指定的缺省定制包在系统初始化时就被加载,每个创建的TTS实例都会包含该定制包的特性。在资源管理中心下,如果将该资源包的属性指定为“缺省自定义资源包”,那么该资源包就是合成系统缺省为每个实例加载的资源包了。
在使用InterPhonic系统进行开发时,可以根据具体需要选择加载资源包。
使用定制包的方法:
使用资源管理中心设置缺省资源包
使用TTSLoadUserLib()函数显示加载指定的资源包
断句 在进行字符集转化之后,合成系统将进行断句操作。断句是指将待合成文本切分成通常意义上的“句子”,方便合成系统进行下一步的处理。一般而言,合成系统在遇到以下的标点符号时将进行断句;如果没有遇到,在字符数量达到最大断句长度时强行切分(系统尽量在空格处断句):
半角字符:! ? ;
全角字符:。,;!?
用户可以定制影响断句操作结果的两种参数:最大断句长度和对回车符的处理。
最大断句长度是指如果文本中没有特定的断句标点符号,合成系统会强行断句的最大字符数量。系统缺省的最大断句长度是128,允许设置的范围是16-128。用户可以通过两种方法来设置参数:
使用“资源管理中心”程序,在“合成参数”目录的“最大断句长度”项中输入需要的值。该参数设置会影响到本计算机上所有的合成服务,因此如果合成系统已经运行,设置将在下次重新运行时生效。
使用iFLY TTS SDK进行开发的过程中,执行TTSSynthText函数进行文本合成之前,将参数TTS_PARAM_MAXSENLEN设置为需要的最大断句长度值。该参数只在本次合成服务连接过程中有效,在下一次改变该参数之前会一直保持本次的设置。
对回车符的处理参数主要用于控制断句过程中对回车符的处理方式。在实际应用过程中,不同合成文本中回车符的意义是不相同的:代表句子或段落结束的回车符应作为分句的标志;用户为对齐文本而强行加入的回车符应该被系统过滤。合成系统可以自动判断文本中回车符的意义。用户可以通过如下两种方法选择回车符的四种处理方式(“自动”、“作为分句标志”、“删除回车符”、“转换成空格”):
使用“资源管理中心”程序,在“合成参数”目录的“回车符号的处理”项中输入需要的值。该参数设置会影响到本计算机上所有的合成服务,因此如果合成系统已经在运行,设置将在下次重新运行时生效。
使用iFLY TTS SDK进行开发的过程中,执行TTSSynthText函数进行文本合成之前,将参数TTS_PARAM_ENTERTREAT设置为需要的值。该参数只在本次合成服务连接过程中有效,在下一次改变该参数之前会一直保持本次的设置。
分词 分词是指合成系统根据内部的词库对合成句子进行地进一步切分,分词的结果直接影响到合成语音中字与字之间的停顿和连贯。InterPhonic 语音合成系统的词库中包含约55000个词条,允许用户添加约4000个词条。用户可以通过两种方式影响系统分词的结果:
在合成文本中,添加TCCM文本标记“SMCI”。该标记会把标记之后指定个数(小于8个)的字符作为一个词处理;
在自定义词库中添加词组,词组的最大长度为4个汉字。
多音字处理 汉字中的多音字在InterPhonic语音合成系统中主要是靠系统的自动判断,系统参考词库中汉字所在词组和前后的语境得到最合适的拼音。用户可以通过如下两种方式来定制特定情况下的汉字拼音:
在合成文本中,添加TCCM文本标记“PYIN”。该标记将按音节数替换标记之后文字的拼音。
在自定义词库中添加词组,用户通过修改词组中汉字的拼音可以实现多音字的正确发音,词组的最大长度为4个汉字。
自定义词库 在 InterPhonic语音合成系统中,用户自定义词库的维护是通过“资源管理中心”程序实现的。自定义词库中添加的词组信息会对分词产生影响,自定义的拼音也会影响汉字的发音。
自定义词库是定制包的组件之一,用户添加的词语只能在当前资源包被加载时产生效果。
目前支持的特性有:
1. 添加中文、英文、粤语词语;
2. 设置英文词语按字母读或按单词读,但是不支持添加中英文混合的词语;
3. 定制词语的朗读节奏。
特殊符号处理 特殊符号主要是指标点符号和其他有意义的字符符号。合成系统在缺省的情况下,一般的特殊符号都不会发音(除了符号“#\>=</*-+”等)。在满足特定语境条件(系统自动判断),或用户选择读出特殊符号的情况下,符号表中的符号将按表中显示的拼音来发音。不在符号表中的符号,合成系统在任何情况下都不会发音。
符号 拼音 汉字 符号 拼音 汉字
、 dun4hao4 顿号 ⑶ san1 三
。 ju4hao4 句号 ⑷ si4 四
· jian4ge2hao4 间隔号 ⑸ wu3 五
— po4zhe2hao4 破折号 ⑹ liu4 六
~ bo1lang4hao4 波浪号 ⑺ qi1 七
… sheng3lue4hao4 省略号 ⑻ ba1 八
‘ zuo3dan1yin3hao4 左单引号 ⑼ jiu3 九
’ you4dan1yin3hao4 右单引号 ⑽ shi2 十
“ zuo3shuang1yin3hao4 左双引号 ⑾ shi2yi1 十一
” you4shuang1yin3hao4 右双引号 ⑿ shi2er4 十二
〔 zuo3kuo4hao4 左括号 ⒀ shi2san1 十三
〕 you4kuo4hao4 右括号 ⒁ shi2si4 十四
〈 zuo3jian1kuo4hao4 左尖括号 ⒂ shi2wu3 十五
〉 you4jian1kuo4hao4 右尖括号 ⒃ shi2liu4 十六
《 zuo3shu1ming2hao4 左书名号 ⒄ shi2qi1 十七
》 you4shu1ming2hao4 右书名号 ⒅ shi2ba1 十八
「 qian2dan1yin3hao4 前单引号 ⒆ shi2jiu3 十九
」 hou4dan1yin3hao4 后单引号 ⒇ er4shi2 二十
『 qian2shuang1yin3hao4 前双引号 ① yi1 一
』 hou4shuang1yin3hao4 后双引号 ② er4 二
± zheng4fu4 正负 ③ san3 三
× cheng2 乘 ④ si4 四
÷ chu2 除 ⑤ wu3 五
∶ Bi3 比 ⑥ liu4 六
∑ qiu2he2 求和 ⑦ qi1 七
∏ qiu2ji1 求积 ⑧ ba1 八
∪ Bing4 并 ⑨ jiu3 九
∩ jiao1 交 ⑩ shi2 十
∈ shu3yu2 属于 ㈠ yi1 一
√ dui4hao4 对号 ㈡ er4 二
⊥ Chui2zhi2yu2 垂直于 ㈢ san3 三
∥ Ping2xing2yu2 平行于 ㈣ si4 四
∠ jiao3 角 ㈤ wu3 五
≡ Heng2deng3yu2 恒等于 ㈥ liu4 六
≌ Quan2deng3yu2 全等于 ㈦ qi1 七
≈ yue1deng3yu2 约等于 ㈧ ba1 八
∽ Xiang1si4yu2 相似于 ㈨ jiu3 九
∝ zheng4bi3yu2 正比于 ㈩ shi2 十
≠ bu4deng3yu2 不等于 Ⅰ yi1 一
≮ bu4xiao3yu2 不小于 Ⅱ er4 二
≯ bu2da4yu2 不大于 Ⅲ san3 三
≤ Xiao3yu2deng3yu2 小于等于 Ⅳ si4 四
≥ Da4yu2deng3yu2 大于等于 Ⅴ wu3 五
∞ wu2qiong2da4 无穷大 Ⅵ liu4 六
∵ yin1wei2 因为 Ⅶ qi1 七
∴ suo3yi3 所以 Ⅷ ba1 八
° du4 度 Ⅸ jiu3 九
℃ she4shi4du4 摄氏度 Ⅹ shi2 十
$ mei3yuan2 美元 Ⅺ shi2yi1 十一
¢ mei3fen1 美分 Ⅻ shi2er4 十二
‰ Qian1fen1zhi1 千分之 ! Gan3tan4hao4 感叹号
⒈ Yi1 一 # Jing3hao4 井号
⒉ Er4 二 ¥ yuan2 元
⒊ san1 三 % bai3fen1zhi1 百分之
⒋ Si4 四 ( Zuo3xiao3kuo4hao4 左小括号
⒌ wu3 五 ) You4xiao3kuo4hao4 右小括号
⒍ liu4 六 * xing1 星
⒎ Qi1 七 + jia1 加
⒏ Ba1 八 , Dou4hao4 逗号
⒐ jiu3 九 - Jian3 减
⒑ shi2 十 . dian3 点
⒒ shi2yi1 十一 / Mei3 每
⒓ shi2er4 十二 : Mao4hao4 冒号
⒔ shi2san1 十三 ; Fen1hao4 分号
⒕ shi2si4 十四 < Xiao3yu2 小于
⒖ shi2wu3 十五 = deng3yu2 等于
⒗ shi2liu4 十六 > da4yu2 大于
⒘ shi2qi1 十七 ? Wen4hao4 问号
⒙ shi2ba1 十八 [ Zuo3zhong1kuo4hao4 左中括号
⒚ shi2jiu3 十九 ] You4zhong1kuo4hao4 右中括号
⒛ Er4shi2 二十 { Zuo3da4kuo4hao4 左大括号
⑴ Yi1 一 } You4da4kuo4hao4 右大括号
⑵ Er4 二 " shuang1yin3hao4 双引号
用户可以通过两种方式来选择是否读出所有的特殊符号:
使用“资源管理中心”程序,在“合成参数”目录的“全部特殊符号发音”项中输入需要的值。该参数设置会影响到本计算机上所有的合成服务,因此如果合成系统已经在运行,设置将在下次重新运行时才生效。
使用iFly TTS SDK进行开发的过程中,执行TTSSynthText函数进行文本合成之前,将参数TTS_PARAM_READALLMARKS设置为需要的值。该参数只在本次合成服务连接过程中有效,在下一次改变该参数之前会一直保持本次的设置。
数字串发音 在InterPhonic语音合成系统中,对数字字符串的处理在缺省情况下是靠系统自动判断。合成系统将根据数字串前后的语流环境,例如之前的汉字或特殊符号、之后的汉字或符号及数字字符串本身的特性,决定数字字符串是按照一个数值来发音(如“一千二百三十四”),还是按照一串数字来发音(如“一二三四”)。用户可以通过两种方式来控制文本中数字字符串的发音:
使用iFly TTS SDK进行开发的过程中,执行TTSSynthText函数进行文本合成之前,将参数TTS_PARAM_READNUMBER设置为需要的值,可以选择“系统自动处理”、“按数值发音”、“按数字发音”。该参数只在本次合成服务连接过程中有效,在下一次改变该参数之前会一直保持本次的设置。
在合成文本中,添加TCCM文本标记“NUMW”和“NUME”。该标记会将转义符TEXT等号后的数字串作为一个数值或一串数字发音。采用文本标记的方法只影响标记之后第一个数字字符串的发音,对整个文本的数字字符串处理没有影响。
英文字符串发音 在InterPhonic语音合成系统中,通常情况下,如果系统判定当前语句为英文环境,所有的英文字母或单词都按照英文习惯发音;如果当前语句被判定为中文环境或中英文混读环境,所有的英文字母或单词都会按照中文习惯来合成,以达到中英文混读的效果。用户可以通过加词来指定英文单词的发音。
合成系统自动判断英文字符串按字母发音或者按照单词发音,用户可以通过TCCM标记或者TTS SDK指定英文的发音方式。
中文环境中,在作为度量单位的情况下,一些英文字母的组合将转化为汉字来发音,列表如下:
符号 拼音 汉字 符号 拼音 汉字
pa pa4si1ka3 帕斯卡 gall jia1lun2 加仑
cmhg li2mi3gong3 厘米汞 mmhg hao2mi3gong3 毫米汞
atm Biao1zhun3da4qi4ya1 标准大气压 bar ba1 巴
cal ka3 卡 cmm hu1mi3 忽米
dag shi2ke4 十克 dal shi2sheng1 十升
dam shi2mi3 十米 dmm Si1mi3 丝米
dr da3lan2 打兰 dyn da2yin1 达因
erg er3ge2 尔格 ft ying1chi3 英尺
gi ji2er3 吉耳 gr ge2ling4 格令
ha gong1qing3 公顷 in ying1cun4 英寸
kgf qian1ke4li4 千克力 lb bang4 磅
mi ying1li3 英里 mol mo2er3 摩尔
oz ang4si1 盎司 pk pei4ke4 配克
pt pin3tuo1 品脱 qt kua1tuo1 夸脱
yd ma3 码 hz he4zi1 赫兹
mx mai4ke4si1wei2 麦克思维 oe ao4si1te4 奥斯特
eV dian4zi3fu2te4 电子伏特 wb wei2bo2 韦伯
cd kan3de2la1 坎德拉 cg Li2ke4 厘克
cl li2sheng1 厘升 cm Li2mi3 厘米
dg fen1ke4 分克 dl fen1sheng1 分升
dm fen1mi3 分米 hl bai3sheng1 百升
hg bai3ke4 百克 kl qian1sheng1 千升
hm bai3mi3 百米 km gong1li3 公里
kg gong1jin1 公斤 ml hao2sheng1 毫升
mg hao2ke4 毫克 μm wei1mi3 微米
mm hao2mi3 毫米 μF wei1fa3 微法
注意 不同合成系统对度量衡的支持情况有所不同。
停顿风格设置 停顿风格是指合成语音中词语之间停顿的长度表现。InterPhonic 语音合成系统允许用户选择五种合成的停顿风格,分别是“抑扬顿挫”、“稍作顿挫”、“正常”、“平缓连贯”、“一气呵成”。在这五种停顿风格中,“一气呵成”对应的词语间停顿最小,语气最连贯。用户可以通过以下方式设置停顿风格:在使用iFly TTS SDK进行开发的过程中,执行TTSSynthText函数进行文本合成之前,将参数TTS_PARAM_STALL_STYLE设置为需要的值。该参数只在本次合成服务连接过程中有效,在下一次改变该参数之前会一直保持本次的设置。
由于停顿风格是通过改变音节间的停顿长短来体现的,这就要求音节之间的衔接比较宽松,否则改变停顿长短就会导致合成效果不自然。但是,按照大语料方法的思想,两个音节之间的衔接应该与语言环境紧密相关,这样才能符合真实的语言环境,所以,如果我们不考虑语语言环境,而仅仅加大或减少停顿,就会导致合成效果变差。倘若能在更改停顿的同时对语速进行调整,就能获得比较好的合成效果。一般情况下,在停顿时间较短的时候,应该加快语速,停顿时间较长则减慢语速。
音库管理 InterPhonic 语音合成系统允许同时安装不同发音人、不同声音数据采样率的多种音库。系统当前支持的音库列表如下:
音库 备注
女声音库B alaw格式16K采样率 缺省声音的输出格式为16K16Bit线性PCM
女声音库B alaw格式11K采样率 缺省声音的输出格式为11K16Bit线性PCM
女声音库B alaw格式8K采样率 缺省声音的输出格式为8K16Bit线性PCM
女声音库B alaw格式6K采样率 缺省声音的输出格式为6K16Bit线性PCM
用户可以使用“资源管理中心”对当前安装的音库进行管理,支持添加音库、删除音库、加载/不加载音库、缺省音库选择等功能。
用户可以采用两种方法来查询当前可用的音库和音库的ID:
使用“资源管理中心”程序,在“音库管理”目录中,会显示当前安装的音库。“√”标志表示该音库合成时会被自动加载,红旗标志表示该音库是缺省音库。如果改变音库的设置,会影响到本计算机上所有的合成服务,因此如果合成系统已经在运行,更改的内容将在下次重新运行时才生效。
使用iFly TTS SDK进行开发的过程中,使用TTS_PARAM_AVAILABLEVID参数可以查询到当前合成系统可用音库的列表,包括各音库的ID值。
用户可以采用两种方式来选择合成使用的音库:
使用“资源管理中心”程序,在“音库管理”目录中,改变缺省的音库选项,合成时缺省的VID对应的音库就会改变。如果改变音库的设置,会影响到本计算机上所有的合成服务,因此如果合成系统已经在运行,改动将在下次重新运行时才生效。
使用iFly TTS SDK进行开发的过程中,使用TTS_PARAM_VID参数可以改变合成使用的音库。改变音库设置之后,合成输出的声音数据格式会自动设置为该音库采样率对应的16bit线性PCM声音数据格式。该参数只在本次合成服务连接过程中有效,在下一次改变该参数之前会一直保持本次的设置。
声音数据格式 InterPhonic语音合成系统支持的声音数据格式列表如下,注意只有安装了表中“需安装音库”列的音库,该项数据格式才能被支持:
编号 数据格式 需安装音库
1 8K8bit线性 PCM 8K音库
2 16K8bit线性 PCM 16K音库
3 8K16bit线性 PCM 8K音库
4 16K16bit线性 PCM 16K音库
5 11K8bit线性 PCM 11K音库
6 11K16bit线性 PCM 11K音库
7 6K8bit线性 PCM 6K 音库
8 6K16bit线性 PCM 6K 音库
9 16K alaw 16K音库
10 16K ulaw 16K音库
11 8K alaw 8K音库
12 8K ulaw 8K音库
13 11K alaw 11K音库
14 11K ulaw 11K音库
15 6K alaw 6K 音库
16 6K ulaw 6K 音库
17 8K4bit G.721 ADPCM 8K音库
18 6K4bit G.721 ADPCM 6K 音库
19 8K3bit G.723 ADPCM 8K音库
20 8K5bit G.723 ADPCM 8K音库
21 6K Dialogic Vox 6K 音库
22 8K Dialogic Vox 8K音库
用户可以采用两种方式来选择合成输出的声音数据格式:
使用“资源管理中心”程序,在“合成参数”目录的“输出声音数据格式”项中输入需要的值。改变该参数的设置,会影响到本计算机上所有的合成服务,因此如果合成系统已经在运行,改动将在下次重新运行时才生效。
使用iFly TTS SDK进行开发的过程中,使用TTS_PARAM_AUDIODATAFMT参数改变合成输出的声音数据格式。如果当前使用的音库不支持参数指定的声音数据格式,而其他采样率的音库当前可用,系统会自动修改音库VID值,将其设置成为同一个发音人能支持该种声音数据格式的音库的ID,从而提供对指定声音数据格式的支持。该参数只在本次合成服务连接过程中有效,在下一次改变该参数之前会一直保持本次的设置。
语速调节设置 语速调节是指调整输出语音 “说话”的快慢。 InterPhonic语音合成系统提供对缺省语速 0.5-2.0 倍的调节,对应的参数范围是-500-+500,参数值越小,语速越慢。用户可以采用两种方式来调整合成语速:
使用“资源管理中心”程序,在“合成参数”目录的“合成语速”项中输入需要的值。改变该参数的设置,会影响到本计算机上所有的合成服务,因此如果合成系统已经在运行,改动将在下次重新运行时才生效。
使用iFly TTS SDK进行开发的过程中,使用TTS_PARAM_SPEED参数改变合成输出的声音语速。该参数只在本次合成服务连接过程中有效,在下一次改变该参数之前会一直保持本次的设置。
声音数据头设置 声音数据头是指合成系统在每次输出声音数据时,声音数据开始部分携带的格式描述信息,包括采样率、量化比特数、压缩方式等。
InterPhonic语音合成系统允许用户选择三种数据头格式:“44字节数据头”、“无数据头”、“标准数据头”。其中,“44字节数据头”是缺省的设置,表示所有格式的声音数据,都会添加一个长度为44字节的标准Windows PCM Wav数据头(请参考Microsoft MSDN Library中相关的信息)。使用“标准数据头”设置,系统会判断输出的声音数据格式并添加不同的数据头:PCM格式的数据会添加长度为44字节的PCM Wav数据头;alaw/ulaw格式的数据会添加长度为58字节的alaw/ulaw Wav数据头;其他格式的声音数据不带数据头。
用户可以采用两种方式来设置声音数据头格式:
使用“资源管理中心”程序,在“合成参数”目录的“输出声音数据头格式”项中输入需要的值。改变该参数的设置,会影响到本计算机上所有的合成服务,因此如果合成系统已经在运行,改动将在下次重新运行时才生效。
使用iFly TTS SDK进行开发的过程中,使用TTS_PARAM_AUDIOHEADFMT参数设置声音数据头格式。该参数只在本次合成服务连接过程中有效,在下一次改变该参数之前会一直保持本次的设置。
输出缓冲区设置 InterPhonic语音合成系统允许用户在系统中设置用于保存声音数据的缓存区的大小,用户可以设置范围在64K~2M内的任意大小的缓冲区。使用较大的缓冲区可以一次获得较多的声音数据。因为每一个合成服务都会有独立的输出缓冲区,使用小的缓冲区将大大减少大容量应用中对内存资源的消耗。
用户可以采用两种方式来设置输出缓冲区大小:
使用“资源管理中心”程序,在缺省使用的资源包配置页的“输出缓冲区大小(K)”项中输入需要的值。改变该参数的设置,会影响到本计算机上所有的合成服务,因此如果合成系统已经在运行,改动将在下次重新运行时才生效。
使用iFly TTS SDK进行开发的过程中,使用TTS_PARAM_OUTBUFSIZE参数设置输出缓冲区大小。该参数只在本次合成服务连接过程中有效,在下一次改变该参数之前会一直保持本次的设置。
CSSML介绍 从InterPhonic CE v2.1 语音合成系统开始,语音合成系统将把CSSML(Chinese Speech Synthesis Markup Language)规范作为合成系统的支持标准,InterPhonic CE语音合成系统将逐步实现对该规范中标记的全面支持。
CSSML是原有TCCM标记完全替代方案,原有的所有TCCM标记都可以对应到CSSML规范中去,后续版本的合成系统不会再增加TCCM标记,仅支持现有的TCCM标记。
实现了本项功能后,TTS系统将能够自动识别处理规范格式的CSSML文本,正确支持其中的多项标记,用户也可以通过调用TTSSetSynthParam()函数时指定输入的文本格式为CSSML格式。对需要合成的文本进行编辑,将其编辑为CSSML格式的文本,对一些特殊用法、发音习惯进行单独标记,用以指导合成系统的合成,就可以提高合成效果、解决合成系统无法正确合成的多种问题。
有关CSSML规范的详细说明请参考CSSML规范文档。
TCCM文本标记 语音合成系统文本通用控制标记(TCCM)是嵌入在文本中能控制合成的可读字符串序列的书写约定,科大讯飞开发的语音合成系统都实现了本标记约定。通用控制标记定义的基本模式如下:
\\FUNC=...[,param1=...][,...]\\
标记为在两个双反斜杠之间的内容,它的总长度定义为不超过124字节。其中包括标记功能名(FUNC)以及可选的一个或多个附加参数(param1...),其间以半角逗号分隔。标记功能名等号后的内容为缺省参数,可为空白。标记功能名是长度为4的半角大写英文字母序列,其后紧跟半角等号。如果缺省参数值或附加参数值内容中有已保留的字符,请使用转义序列’/’+原字符,’\’写为’/ \’,’/’写为’//’,以此类推。如果没有特殊说明,约定标记作用域为标记之后紧跟的待合成文本,或者在迭代使用时可以是迭代标记后紧跟的待合成文本。合成系统支持的通用标记列表如下:
模式 说明 样例 备注
\\PYIN=pyin\\ 自动按音节数替换标记后文字读音,要求替换的单位是一个词或小于一个词。
“中国\\PYIN=hu2yu4\\人民”
将读成“zhong1 guo2 hu2 yu4”。
\\SMCI=num\\ 将标记后num个数的字强制划分为一个词,num不应大于8。
“中国球员\\SMCI=2\\杨晨攻进了本赛季第二粒入球”
\\TCPG=codepage\\ 将标记之后文本的字符集定义为codepage [GB2312 | GBK | BIG5]。
“\\TCPG=GBK\\话说当代”
本标记的作用域是从当前位置开始,到文本结束或下一个TCPG标记结束。
\\NUMW=,TEXT=text\\ 将转义符TEXT等号后的数字串作为一个数值发音,若text与后不匹配,则按缺省处理发音。
“\\NUMW=,TEXT=123\\123”
123将发音为:“yi1 bai3 er4 shi2 san1”。
\\NUME=,TEXT=text\\ 将转义符TEXT等号后的数字串作为一串数字发音,若text与后不匹配,则按缺省处理发音。
“\\NUME=,TEXT=123\\123”
123将发音为:“yao1 er4 san1”。
\\MHAO=maohao\\ 定义文本标记之后的冒号“:”的读法。其中冒号可以取值[shijian | bifen],分别表示将冒号作为时间分隔符和比分分隔符。
“比分1\\MHAO=bifen\\:4”1:4发音为:“yi1 bi3 si4”。
“时间1\\MHAO=shijian\\:4” 1:4发音为:“yi1 dian3 si4 fen1”。
冒号“:”可以是全角,也可以是半角。如果本标记之后不是冒号或冒号前后不是数字,本标记无效。
\\DATF=WavFile\\ 在此标记后播放外部数据文件。自动将filename指定的声音数据文件作为输出数据文件的一部分,即在标记处插入指定的声音文件。
“下面是一段录音:\\DATF=c:\memo.wav\\”
使用这个标记可以在合成的过程中播放一段外部数据文件。
该文件的格式必须与当前输出的音频格式相同。
filename必须是单斜杠“\”表示本地绝对路径,不可是网络路径,本标记可以出现在文本的任何地方。
\\RELT=english\\ 自动将english表示的英文串按字母读。
“Anhui \\RELT=USTC\\USTC iFly InfoTEK”
每次只能标记一个连续的英文串标记与英文串之间没有空格,如果标记插入连续的英文串中间,将忽略标记。
\\REWD=english\\ 自动将english表示的英文串按单词读。
“Anhui USTC \\REWD= iFlyInfoTek\\iFlyInfoTek”
同上
\\REPY=english\\ 自动将english表示的英文串汉语按拼音读。
“\\REPY=AnHui\\Anhui USTC iFlyInfoTek”
“\\REPY=li3peng2\\li3peng2”
可以标记带音调正确的拼音串。
加密 InterPhonic语音合成系统的企业版使用HASP软件锁防止非法拷贝和控制授权数量。当用户将软件锁安装到计算机上,并安装软件锁的驱动程序后,合成系统才能正确运行。在Windows环境下,InterPhonic CE系统的安装程序会自动安装HASP软件锁驱动程序。如果用户在使用过程中出现软件锁的相关问题,可以手工安装驱动程序:在安装目录“bin”子目录下,执行“hinstall.exe -i”安装驱动程序。用户可以使用系统提供的软件锁检测工具HaspMan.exe查看软件锁是否正确安装和软件锁的内部信息(包括License数量)。