《科大讯飞5.0》(InterPhonic )5.0[压缩包]

王朝简介·作者佚名 2010-02-21

宽屏版字体: 小|中|大|超大

说明因可能的版权问题本站不提供该资源的存贮、播放、下载或推送，本文仅为内容简介。

中文名: 科大讯飞5.0

英文名: InterPhonic

别名: 科大语音全成软件

资源格式: 压缩包

版本: 5.0

发行时间: 2006年6月22日

制作发行: 2006-6-22

地区: 大陆

语言: 多语言

简介:

InterPhonic 5.0 概述 InterPhonic 5.0 语音合成系统是科大讯飞公司推出的中、粤、英混读语音合成系统。它以先进的大语料语音合成技术和语音韵律描述体系为基础，面向中、高端应用，提供任意文本、任意篇章的连续语音合成功能。

应用范围

InterPhonic语音合成系统提供高效、灵活的语音合成服务，可以在多种领域内使用：

桌面娱乐和教学

小型、大型以及电信级的声讯服务平台

UMS和Voice Portal等新兴语音服务系统

版本历史

InterPhonic 系列产品目前所发布的版本及描述：

产品版本发布日期描述信息

InterPhonic CE 1.0 2001.12 InterPhonic系列的第一个中英文混合合成版本

InterPhonic CE 1.01 2002.02 在英文合成效果上有所改进，提升合成性能

InterPhonic CE 1.1 2002.05 改进中英文总体合成效果，提升性能和稳定性

InterPhonic CE 1.2 2002.07 增加了多资源包的支持，多个资源的统一管理，改进用户界面

InterPhonic CE 2.0 2002.09 改进了内核算法，提供更多的合成控制参数，功能更强，管理更简单

InterPhonic CE 2.1 2003.01 增加了对CSSML文本标记的支持

InterPhonic CE 2.2 2003.07 合成效果全面提升，并提供CSSML文本编辑工具和TTS Doctor技术支持工具

InterPhonic CE 3.0 2004.03 增加了新的音库，支持预录音、背景音，全面提升合成效果

InterPhonic 4.0 2005.05 增加了男声音库，支持纯英文文本合成，与讯飞语音平台集成

InterPhonic 5.0 2006.05 InterPhonic系列的最新产品

版本情况

根据应用场合和系统组件的不同，InterPhonic 5.0语音合成系统可以分成3种版本：演示版for Windows、桌面版for Windows、企业版for Windows。

各个版本之间的对比列表如下：

组件演示版桌面版企业版

语音合成运行库有有有

语音合成服务器无无有

语音合成开发包无有有

软件锁无有有

相关主题

显示界面设置

管理系统资源系统资源概述

合成系统在合成过程中使用的各种外部的文件，统称为资源。如规则库、词库、音库等。

系统资源是当前已安装的语音合成系统的自身情况，它的信息是通用的信息，不与具体资源相关联。

提示对系统资源做的修改对所有路数的合成效果皆有影响。

设置系统资源

系统资源是当前已安装的语音合成系统的自身情况，它的信息是通用的信息，不与具体资源相关联。

单击快捷方式中的“系统设置”图标，或者单击资源视图中的“系统设置”。

查看显示信息。可以更改的设置是“系统安装路径”，更改时单击按钮，选择路径，然后单击“确定”。

需要保存设置，请单击帮助视图内的“保存现有设置”；不需要保存，请单击帮助视图内的“放弃设置”。

参数影响影响所有路数的合成效果。

配置资源包设置资源包的位置，可以单击按钮，选择路径，然后单击“确定”。

设置资源包的属性，可以单击按钮，在下拉菜单中单击设置的内容。

对其他参数的配置，请直接在输入框中输入设置内容。

配置标准资源包：

配置自定义资源包：

系统日志 InterPhonic语音合成系统提供了系统运行日志的功能，用于记录系统的运行情况以及作为排除某些系统错误的依据。

设置系统日志的方法：

使用“资源管理中心”程序，在“系统设置”界面中设置日志选项。该设置会影响到本计算机上所有的合成服务，因此如果合成系统已经在运行，改动将在下次重新运行时才生效。

各选项说明：

1.记录等级

根据日志记录信息的详细程度不同，系统日志分成三个等级：

（1）记录运行中的错误信息，错误信息是合成系统运行过程中严重错误的记录，这些错误可能会造成系统运行不正常或无法运行。

（2）记录运行中的警告信息，警告信息是合成系统运行过程中一些不太严重的错误记录，这些警告可能会使合成系统某些功能不能正常使用。

（3）记录一般信息，是合成系统正常情况下的运行记录，但这种信息内容较多，记录这些信息会影响合成系统的性能。

用户可以根据需要选择其中的一项或几项。

2.日志信息

日志最大尺寸：日志文件的大小可以是1M～1024M。

日志写满后处理方式：删除旧日志文件、备份旧日志文件。

日志文件路径：合成系统会设置日志文件的默认路径，用户也可以根据需要自行选择日志文件路径。

配置资源包缺省参数配置前请注意：对资源包合成参数的设置将影响所有的合成服务。

资源包缺省合成参数配置窗口如下图所示：

设置文本内码

参数值：GB2312中文简体、GBK中文繁体、Big5中文繁体、Unicode。

各文本内码之间的区分请参见“汉字编码方式”。

缺省文本内码是指GB2312中文简体。

设置文本类型

普通文本：通知系统被合成文本是普通.TXT文本。

CSSML标记文本：通知系统被合成文本是CSSML标记文本。

让系统自动识别文本类型：系统将自动识别被合成文本的类型。

输出音频数据格式

音频数据格式即合成输出的语音数据的格式，能支持的格式与已经安装的音库采样率有关。

系统支持的音频数据格式有PCM、aLAW、uLAW、ADPCM和VOX格式等。

以安装了8k音库为例：

缺省格式：系统在输出声音数据时，按缺省值将其格式设置为PCM 8K16B1C。

PCM 8K8B1C：输出的声音数据的格式都设置为PCM 8K8B1C。

PCM 8K16B1C：输出的声音数据的格式都设置为PCM 8K16B1C。

Alaw 8K1C：输出的声音数据的格式都设置为Alaw 8K1C。

Ulaw 8K1C：输出的声音数据的格式都设置为Ulaw 8K1C。

ADPCM-G721 8K4B1C：输出的声音数据的格式都设置为ADPCM-G721 8K4B1C。

ADPCM-G723 3B1C：输出的声音数据的格式都设置为ADPCM-G723 3B1C。

ADPCM-G723 5B1C：输出的声音数据的格式都设置为ADPCM-G723 5B1C。

VOX 8K1C：输出的声音数据的格式都设置为VOX 8K1C。

输出音频头格式

合成系统在每次输出声音数据时，声音数据开始部分携带的格式描述信息（包括采样率、量化比特数、压缩方式等），称为音频数据头。

声音文件是由音频数据头和声音数据拼接得到的。在进行合成时，需要对音频头格式进行正确处理，否则生成的声音数据文件在播放时会出现杂音。

缺省头格式：输出文件中包含44字节音频数据头，只有在输出格式为Wave PCM时才有意义。

不输出音频头：输出文件中不包含音频数据头。

标准头格式：输出文件中包含标准格式音频数据头，根据具体格式头长度可能为 44（标准PCM格式）、58（Alaw和Ulaw）或0字节（Vox格式）。

回车符号的处理

回车符在文本的不同处代表着不同的涵意，合成时系统需要对其进行分析，给出不同的处理方式。例如：代表句子或段落结束的回车符应作为分句的标志；用户为对齐文本而强行加入的回车符应该被系统过滤。

自动处理：系统根据回车符前后的语流环境，自动决定处理的方法。

遇到回车进行分句：将回车符做为分句符，代表句子或段落的结束，合成语音会在此处有停顿。

忽略：忽略回车符，不加处理。

按空格处理：将回车符当做空格符处理。

标点符号发音

在缺省的情况下，除了符号“＃＼＞＝＜／＊－＋”外，一般的标点符号在合成时不发音。

不发音：遇到标点符号时，不发音。

总是发音：遇到标点符号时，根据符号列表中设定的拼音发音。

数字串读法

自动（缺省按值发音）：系统根据数字串前后的语流环境，自动决定处理的方法。当该数字串无法按系统规则处理时，将按数值发音。

按值发音：所有的数字串都按数值发音，如“98”读作“九十八”。

按数字发音：所有的数字串都按数字串发音，如“98”读作“九”“八”。

自动（缺省按数字发音）：系统根据数字串前后的语流环境，自动决定处理的方法。当该数字串无法按系统规则处理时，将按数字串发音。

英文单词读法

自动处理：系统根据英文单词前后的语流环境，自动决定处理的方法，缺省按词发音或缺省按字母发音。

一律按字母发音：将英文单词拆分成字母发音，如“book”读作“b”“o”“o”“k”。

合成语速

设置的值越大，语速越快。

合成音量

设置的值越大，声音越大。

合成音调

设置的值越大，声音越高。

最大断句长度（字符个数）

“断句”，是指为了方便合成系统对文本进行处理，而将待合成文本切分成通常意义上的“句子”。一般而言，合成系统在遇到半角字符“!”“ ?”“ ;”，全角字符“。”“，”“；”“！”“？”时将进行断句。如果没有遇到，在字符数量达到最大断句长度时强行切分（系统尽量在空格处断句）。

“最大断句长度”，是指如果文本中没有特定的断句标点符号时，合成系统会强行断句的最大字符数量。

当文本中没有特定的断句标点符号时，系统强行断句的字符数量与设定的值有关。

输出缓冲区大小

合成系统对外输出语音时用于保存声音数据的缓存区，称为输出缓冲区。较大的输出缓冲区可以一次获得较多的声音数据；较小的缓冲区可以减少在高密度应用中合成系统对内存资源的消耗。

输出缓冲区的值设置得越大，对内存资源的消耗越多，一次性获得的声音数据也越多。

管理音库概述音库是合成系统保存合成需要的语音数据的基本资源。音库的正确使用是合成高质量语音的必要条件。

本系统允许同时安装多个音库。您可以在资源管理中心中，对这些音库进行管理：设置缺省音库、查看音库属性。

单击快捷方式中标准资源下的“音库”图标，或者单击资源视图中标准资源下的“音库”。

设置缺省音库在没有设置输出音频格式时，系统会使用缺省音库进行合成。但是，如果已设置了输出音频格式，系统将仍然按设定的音频格式输出语音文件。

设置缺省音库

选中音库。

单击帮助视图内的“设置缺省音库”。

单击“文件”菜单中的“保存”命令。

提示

要快速设置选中的音库为缺省音库，可以单击鼠标右键菜单中的“设置为缺省音库”。

要快速保存设置的内容，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存设置”。

参数影响只对当前的资源包有效，不对其它资源包产生影响。

查看音库属性单击快捷方式中的“音库”图标，或者单击资源视图中的“音库”。

单击“资源”菜单中的“属性”命令。

提示要快速查看属性，可以单击工具栏按钮，或者单击鼠标右键菜单中的“属性”。

添加汉语词单击帮助视图内的“添加新词语”。

在“词语”栏输入汉字（字数在2～20个之间）。

在“词性”栏单击按钮，在下拉菜单中单击词性。

在“节奏”栏输入词语朗读节奏（汉语和粤语词）。

在“中文拼音/英文音标”栏输入拼音，用英文字母加数字的方式表示，其中“0”表示轻声；“1”表示阴平，“2”表示阳平，“3”表示上声，“4”表示去声，例如“此”的拼音表示为“ci3”；如果是粤语词语，在“粤语拼音”栏输入粤语读音（系统会自动给出，用户可以根据需要调整）。

单击“文件”菜单中的“保存”命令。

提示

在为汉语词注音时，拼音间请用“，”或“：”或空格分隔。

要快速添加新词，可以双击信息视图的空白处，或者单击鼠标右键菜单中的“向词库中添加新词”，或者直接按Insert键。

要快速保存设置，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响

只影响当前的一路合成效果，不影响其他路数的合成效果。

自定义词库中添加的词组信息会对分词产生影响，自定义的拼音也会影响汉字的发音。

添加英文词单击帮助视图内的“添加新词语”。

在“词语”栏输入英文单词。

在“词性”栏单击按钮，在下拉菜单中单击词性。

鼠标左键单击帮助视图内的音标，为英文单词添加注音。

单击“文件”菜单中的“保存”命令。

提示

要快速添加词，可以双击信息视图的空白处，或者单击鼠标右键菜单中的“向词库中添加新词”，或者直接按Insert键。

要快速保存设置，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响

只影响当前的一路合成效果，不影响其他路数的合成效果。

自定义词库中添加的词组信息会对分词产生影响，自定义的拼音也会影响英文的发音。

修改词 1. 在词语列表中单击词。

2. 修改需更新的部分。

3. 单击“文件”菜单中的“保存”命令。

提示

要快速保存设置，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只影响当前的一路合成效果，不影响其他路数的合成效果。

删除词 1. 在词语列表中单击词。

2. 单击帮助视图中的“删除现有词语”。

3. 在系统弹出的对话框中单击“是”。

4. 单击“文件”菜单中的“保存”命令。

提示

从词库中删除词语可能会导致合成某些文本时，合成效果降低。

要快速删除词，可以单击鼠标右键菜单中的“从词库中删除该词”。

要快速保存设置，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只影响当前的一路合成效果，不影响其他路数的合成效果。

导入词汉语词可以批量的导入到词库中。在导入词语之前，需要建立一个文本文件用于放置等待导入的词语。在该文件中，词、词性和拼音之音必须以空格分隔，一行只能书写一个词。如：

--------------------------------------------------------------------------------

北海名词否 2 bei3hai3

说动词否 1 shuo1

白形容词否 1 bai2

--------------------------------------------------------------------------------

拼音采用英文字母加数字的方式表示，其中“0”表示轻声，“1”表示阴平，“2”表示阳平，“3”表示上声，“4”表示去声。

导入词在词库中的表示形式如下图：

导入词

单击“文件”菜单中的“导入”命令。

选择存放词的文本文件，单击“打开”。

单击“文件”菜单中的“保存”命令。

提示

要快速导入词，可以单击鼠标右键菜单中的“导入”。

要快速保存导入的内容，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只影响当前的一路合成效果，不影响其他路数的合成效果。

--------------------------------------------------------------------------------

北海名词否 2 bei3hai3

说动词否 1 shuo1

白形容词否 1 bai2

--------------------------------------------------------------------------------

拼音采用英文字母加数字的方式表示，其中“0”表示轻声，“1”表示阴平，“2”表示阳平，“3”表示上声，“4”表示去声。

导入词在词库中的表示形式如下图：

导入词

单击“文件”菜单中的“导入”命令。

选择存放词的文本文件，单击“打开”。

单击“文件”菜单中的“保存”命令。

提示

要快速导入词，可以单击鼠标右键菜单中的“导入”。

要快速保存导入的内容，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只影响当前的一路合成效果，不影响其他路数的合成效果。

--------------------------------------------------------------------------------

北海名词否 2 bei3hai3

说动词否 1 shuo1

白形容词否 1 bai2

--------------------------------------------------------------------------------

拼音采用英文字母加数字的方式表示，其中“0”表示轻声，“1”表示阴平，“2”表示阳平，“3”表示上声，“4”表示去声。

导入词在词库中的表示形式如下图：

导入词

单击“文件”菜单中的“导入”命令。

选择存放词的文本文件，单击“打开”。

单击“文件”菜单中的“保存”命令。

提示

要快速导入词，可以单击鼠标右键菜单中的“导入”。

要快速保存导入的内容，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只影响当前的一路合成效果，不影响其他路数的合成效果。

导出词将词库的内容保存为文本文件，放置在计算机中。当需要重装系统或在多台机器中使用同一词库时，可以直接将保存过的文本文件导入。

导出词

1. 单击“文件”菜单中的“导出”命令。

2. 选择存放处，单击“保存”。

提示

要快速导出词，可以单击鼠标右键菜单中的“导出”。

查看词库属性 1. 单击快捷方式中的“词库”图标，或者单击资源视图中标准资源下的“词库”。

2. 单击“资源”菜单中的“属性”命令。

提示要快速查看属性，可以单击工具栏按钮，或者单击鼠标右键菜单中的“属性”。

添加新规则以添加新规则“C:\Windows的读法”为例：

1. 单击帮助视图内的“添加一条新的合成规则”，开启规则向导。

2. 在“规则名称”栏输入新规则的名称：C盘Windows。

在“规则权值”栏输入8888。权值代表规则的重要程度，输入的数值越大，表示该规则越重要，权值的范围在1～9999间。

在“描述信息”栏输入对规则的描述，这主要是为了分辨规则。

单击“下一步”。

3. “节点”是语音合成系统中文本处理的基本单位，一条规则可以包含对一个或多个节点的条件和处理。

在本例中，新规则由英文节点和符号节点组成。单击“规则向导”中的“英文节点”和“符号节点”。

4. 选定节点后，需要对节点应满足的条件进行设置。

a)单击节点“英文[1]”。

双击匹配条件。（注：匹配条件可以是多个）

i.单击条件，对条件本身进行描述。

ii.单击按钮，选择一种描述方式，在其后的输入栏中输入条件内容。设置完毕请单击“确定”。

如果选择的描述方式是“包含在”，那么还需要设置搜索的队列：在“添加搜索条件”栏中输入条件，单击“添加”按钮。（注：搜索条件可以为多个）

iii.重复上述步骤，为每个节点都设置限制条件。

5. 设置完节点应满足的条件后，请单击“下一步”。

6. 对节点的处理方式进行描述。

i.单击节点“英文[1]”。

ii.双击处理方式。（注：处理方式可以是多个）

iii.对处理方式本身进行描述。由于节点“英文[1]”设置的处理方式是“缺省处理”，所以不需要再进行描述。

有些处理方式需要对其本身进行必要的描述，如设置节点“符号[1]”的处理方式，选择处理方式为“拼音设为”。单击“拼音设为...”，描述处理方式。

输入描述信息，单击确定。

iv.重复上述步骤，为每个节点都设置处理方式。

7. 设置完所有节点的处理方法后，请单击“下一步”。

缺省的情况下拼接向导将前面的所有节点拼接成一个新节点，调整节点前后次序就可以改变节点的合成次序，即调整到前面的节点将先发音。通过对节点的合理拼接可以改善合成效果，提高节奏感。

要将“C盘”拼接到一个节点必须的步骤如下：

选中被拼接的节点“英文[2]”，单击“提升层次”按钮。

获得如下的结果，表明了节点“英文[2]”不再是“新节点[1]”的子节点，这样做的目的是提高合成的节奏感，现在是“C盘 Windows”而不是此前的“C盘Windows”。

另外在一些特殊的情况下，通过“添加”按钮新增一节点，通过“编辑”对新节点设置一些处理，设置方式和规则处理部分相似，也可以“删除”新增的节点。

完成规则拼接部分的操作后，单击“完成”，退出规则向导。

8. 单击“文件”菜单中的“保存”命令。

提示

要快速添加新规则，可以双击信息视图的空白处，或者单击鼠标右键菜单中的“添加新规则”。

要快速保存设置，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只对当前的资源包有效，不对其它资源包产生影响。

修改规则 1. 选中规则。

2. 单击鼠标右键选择“查看/编辑规则信息”。

3. 按添加新规则的方法修改规则。

4. 单击“文件”菜单中的“保存”命令。

提示

要快速保存设置，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只对当前的资源包有效，不对其它资源包产生影响。

删除规则 1. 选中规则。

2. 单击鼠标右键选择“删除规则”。

3. 单击“文件”菜单中的“保存”命令。

提示

要快速保存设置，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只对当前的资源包有效，不对其它资源包产生影响。

查看外部规则属性 1. 单击快捷方式中的“外部规则”图标，或者单击资源视图中标准资源下的“外部规则”。

2. 单击“资源”菜单中的“属性”命令。

提示要快速查看属性，可以单击工具栏按钮，或者单击鼠标右键菜单中的“资源属性”。

添加新标点 1. 单击帮助视图内的“添加一个标点符号”。

2. 在“标点符号”栏输入标点符号。

3. 在“发音方式”栏单击按钮，在下拉菜单中单击发音方式：总是发音——在任何情况下都发音；自动方式——由系统对标点符号的前后语流环境进行分析，自动选择处理方式。

4. 在“停顿”栏输入停顿时间，以毫秒为单位。

5. 在“汉语拼音”栏输入拼音。拼音用英文字母加数字的方式表示。其中“0”表示轻声；“1”表示阴平，“2”表示阳平，“3”表示上声，“4”表示去声。例如“中”的拼音表示为“zhong1”。

6. 单击“文件”菜单中的“保存”命令。

提示

只支持对全角符号的设置。

如果不想让某个标点符号发音，又不愿意将其删除，您可以将其的发音设为空值。

要快速添加标点符号，可以单击鼠标右键菜单中的“添加新符号”。

要快速保存设置，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只对当前的资源包有效，不对其它资源包产生影响。

修改标点 1. 在标点符号列表中单击标点符号。

2. 修改需更新的部分。

3. 单击“文件”菜单中的“保存”命令。

提示

要快速保存设置，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只对当前的资源包有效，不对其它资源包产生影响。

删除标点 1. 在标点符号列表中单击标点符号。

2. 单击帮助视图中的“删除选定的标点符号”。

3. 在系统弹出的对话框中单击“是”。

4. 单击“文件”菜单中的“保存”命令。

提示

要快速删除符号，可以单击鼠标右键菜单中的“删除符号”。

要快速保存设置，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只对当前的资源包有效，不对其它资源包产生影响。

查看标点符号属性 1. 单击快捷方式中的“标点符号”图标，或者单击资源视图中标准资源下的“标点符号”。

2. 单击“资源”菜单中的“属性”命令。

提示要快速查看属性，可以单击工具栏按钮，或者单击鼠标右键菜单中的“属性”。

添加新的数字策略 1. 单击帮助视图内的“添加一条新规则”。

2. 在“数字规则”栏输入新的数字处理规则。

3. 单击“文件”菜单中的“保存”命令。

提示要快速保存设置，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只对当前的资源包有效，不对其它资源包产生影响。

修改数字策略 1. 在数字规则列表中单击需要修改的数字规则。

2. 修改需更新的部分。

3. 单击“文件”菜单中的“保存”命令。

提示要快速保存设置，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只对当前的资源包有效，不对其它资源包产生影响。

删除数字策略 1. 在数字规则列表中单击需要删除的数字规则。

2. 单击帮助视图中的“删除选定的规则”。

3. 在系统弹出的对话框中单击“是”。

4. 单击“文件”菜单中的“保存”命令。

提示

要快速删除符号，可以单击鼠标右键菜单中的“删除选定规则”。

要快速保存设置，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只对当前的资源包有效，不对其它资源包产生影响。

添加预录音 1. 单击帮助视图内的“添加一条新的预录音”。

2. 在“选择预录音文件”弹出界面中选择预录音文件路径，单击“下一步”继续。

3. 在“设置预录音属性”界面中输入预录音属性，单击“下一步”继续。

4. 在“转化预录音格式”界面中进行预录音格式转换，并试听效果。

5. 单击“文件”菜单中的“保存”命令，保存自定义资源。

说明

预录语音信息的设置只对当前的资源包有效，不对其它资源包产生影响。上面图示中各项的意义：

预录音文件：是指与当前所设置预录语音相匹配的预录语音文件的位置。

语音文件格式：当系统能够识别预录语音文件格式的时候，采样率选择框变灰；反之，则需要指定语音文件格式。格式说明：

PCM 6K8B1C：6k8bit单声道pcm数据

PCM 6K16B1C：6k16bit单声道pcm数据

PCM 8K8B1C：8k8bit单声道pcm数据

PCM 8K16B1C：8k16bit单声道pcm数据

以此类推；

ALAW 6K1C：6k单声道alaw数据

ALAW 8K1C：8k单声道alaw数据

ALAW 11K1C：11k单声道alaw数据

以此类推；

VOX6K1C：单声道6k的vox数据

VOX8K1C：单声道8k的vox数据

音库标志：选择匹配音库类型。

名称：当前所设置的预录语音标题，也即该预录语音文件的文件名。需要用户输入，长度不大于32个字符。

是否生效：表示当前所设置的预录语音是否立即启用。只有在生效的情况下，合成文本中才能使用预录语音。

文本：当前所设置的预录语音的文字内容。需要用户输入，长度不大于4K字符（注意：最后的字符不能是标点符号或空格）。

语音数据嵌入到系统资源中：用户选择是否将预录音语音数据嵌入到系统的音库资源中，如果不选择，则合成系统用到该预录音时将从按照文件路径调用；如果选择嵌入，则该预录音作为音库资源存在，合成系统用到该预录音时直接从相关音库中调用，建议使用嵌入模式。

试听功能：单击“试听”按钮，可以试听当前正在设置的预录语音。用户可以根据需要调整预录语音的音量大小。预录语音后面的女声“科大讯飞语音合成系统”是系统自动加入的合成语音，目的是帮助用户根据合成语音的音量调整预录语音的音量，使之更好地符合合成文本的整体风格。单击“停止”按钮结束试听。

删除预录音 1. 在预录语音列表中单击需要删除的预录语音。

2. 在预录音帮助页面内选择“删除选定的预录音”。

3. 在系统弹出菜单中选择“是”。

4. 单击“文件”菜单中的“保存”命令，保存自定义资源。

提示要快速保存设置，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只对当前的资源包有效，不对其它资源包产生影响。

添加背景音 1. 单击帮助视图内的“添加一条背景音”。

2. 在“选择背景音文件”弹出界面中选择背景音文件路径，单击“下一步”继续。

3. 在“设置背景音属性”界面中设置背景音编号、是否重复播放，并填写背景音名称和背景音的文本信息。单击“下一步”继续。

4. 在“转化背景音格式”界面中单击“开始”，系统进行背景音格式转换。单击“试听”按钮试听合成效果；单击“完成”退出设置。

5. 单击“文件”菜单中的“保存”命令，将新的背景音信息保存到自定义资源。

说明

背景音信息的设置只对当前的资源包有效，不对其它资源包产生影响。上面图示中各项的意义：

编号：当前所设置的背景音在背景音库中的编号，自动显示。

时长：正常情况下，当前背景音的播放时间，自动显示。

重复播放背景音：在语音合成过程中，应用当前背景音时，是否重复播放。用户选择。

名称：当前背景音的名称。在背景音库中，背景音文件的名称必须唯一，长度不大于36字符。

描述：对当前背景音的简单说明，长度不大于256字符。

混音比例：在进行语音合成时，背景音与合成语音的音量比例。取值范围：0～0.6，值越大，背景音音量越大；取值为零，表示背景音为静音。

试听功能：单击“试听”按钮，可以试听当前正在设置的背景音。单击“停止”按钮结束试听。

删除背景音 1. 在背景音列表中单击需要删除的背景音。

2. 在背景音帮助页面内选择“删除选定背景音”。

3. 在系统弹出菜单中选择“是”。

4. 单击“文件”菜单中的“保存”命令，保存自定义资源。

提示要快速保存设置，可以单击工具栏按钮，或者单击鼠标右键菜单中的“保存”。

参数影响只对当前的资源包有效，不对其它资源包产生影响。

标准安装的资源包标准配置的合成系统安装后，一般情况下将包含两个资源包：“标准资源包”和“自定义资源包”。除“标准资源包”之外的任何资源包都属于定制包。

标准资源包

这是系统运行不可缺少的资源包，他包含了TTS合成所必须的资源支持，任何定制的资源包必须在他的基础上产生作用。这个资源包中的资源大多数不能修改。

自定义资源包

这是系统内置的一个空的定制资源包，用户可以使用资源管理中心对这个包进行定制：添加自定义词、修改符号的发音和停顿时长。用户也可以不使用这个资源包，只需要在资源管理中心中将这个包的属性指定为“一般用户自定义包”即可。

安装定制包为了一些特殊的应用场合的需要，InterPhonic 5.0 系统会提供相应的定制包，这些定制包包含定制音库、定制词库和定制规则库等。

在标准安装后如果安装了定制包，合成系统将包含三个资源包：“标准资源包”、“自定义资源包”和“定制资源包”，同时该定制资源包将会成为缺省资源包。这样，在TTS开发中，每个合成实例将缺省使用该定制包的所有特性。

注意

不同应用场合的定制包是不同的，一个定制包只能改善相同类型应用的合成效果，同时可能会影响其他场合的效果。例如如果安装了天气预报包后，如果合成股评信息，将不会产生任何效果。

多个资源包的使用当系统中存在多个定制资源包时，就必须指定缺省的定制包，指定的缺省定制包在系统初始化时就被加载，每个创建的TTS实例都会包含该定制包的特性。在资源管理中心下，如果将该资源包的属性指定为“缺省自定义资源包”，那么该资源包就是合成系统缺省为每个实例加载的资源包了。

在使用InterPhonic系统进行开发时，可以根据具体需要选择加载资源包。

使用定制包的方法：

使用资源管理中心设置缺省资源包

使用TTSLoadUserLib()函数显示加载指定的资源包

断句在进行字符集转化之后，合成系统将进行断句操作。断句是指将待合成文本切分成通常意义上的“句子”，方便合成系统进行下一步的处理。一般而言，合成系统在遇到以下的标点符号时将进行断句；如果没有遇到，在字符数量达到最大断句长度时强行切分（系统尽量在空格处断句）：

半角字符：! ? ;

全角字符：。，；！？

用户可以定制影响断句操作结果的两种参数：最大断句长度和对回车符的处理。

最大断句长度是指如果文本中没有特定的断句标点符号，合成系统会强行断句的最大字符数量。系统缺省的最大断句长度是128，允许设置的范围是16－128。用户可以通过两种方法来设置参数：

使用“资源管理中心”程序，在“合成参数”目录的“最大断句长度”项中输入需要的值。该参数设置会影响到本计算机上所有的合成服务，因此如果合成系统已经运行，设置将在下次重新运行时生效。

使用iFLY TTS SDK进行开发的过程中，执行TTSSynthText函数进行文本合成之前，将参数TTS_PARAM_MAXSENLEN设置为需要的最大断句长度值。该参数只在本次合成服务连接过程中有效，在下一次改变该参数之前会一直保持本次的设置。

对回车符的处理参数主要用于控制断句过程中对回车符的处理方式。在实际应用过程中，不同合成文本中回车符的意义是不相同的：代表句子或段落结束的回车符应作为分句的标志；用户为对齐文本而强行加入的回车符应该被系统过滤。合成系统可以自动判断文本中回车符的意义。用户可以通过如下两种方法选择回车符的四种处理方式（“自动”、“作为分句标志”、“删除回车符”、“转换成空格”）：

使用“资源管理中心”程序，在“合成参数”目录的“回车符号的处理”项中输入需要的值。该参数设置会影响到本计算机上所有的合成服务，因此如果合成系统已经在运行，设置将在下次重新运行时生效。

使用iFLY TTS SDK进行开发的过程中，执行TTSSynthText函数进行文本合成之前，将参数TTS_PARAM_ENTERTREAT设置为需要的值。该参数只在本次合成服务连接过程中有效，在下一次改变该参数之前会一直保持本次的设置。

分词分词是指合成系统根据内部的词库对合成句子进行地进一步切分，分词的结果直接影响到合成语音中字与字之间的停顿和连贯。InterPhonic 语音合成系统的词库中包含约55000个词条，允许用户添加约4000个词条。用户可以通过两种方式影响系统分词的结果：

在合成文本中，添加TCCM文本标记“SMCI”。该标记会把标记之后指定个数（小于8个）的字符作为一个词处理；

在自定义词库中添加词组，词组的最大长度为4个汉字。

多音字处理汉字中的多音字在InterPhonic语音合成系统中主要是靠系统的自动判断，系统参考词库中汉字所在词组和前后的语境得到最合适的拼音。用户可以通过如下两种方式来定制特定情况下的汉字拼音：

在合成文本中，添加TCCM文本标记“PYIN”。该标记将按音节数替换标记之后文字的拼音。

在自定义词库中添加词组，用户通过修改词组中汉字的拼音可以实现多音字的正确发音，词组的最大长度为4个汉字。

自定义词库在 InterPhonic语音合成系统中，用户自定义词库的维护是通过“资源管理中心”程序实现的。自定义词库中添加的词组信息会对分词产生影响，自定义的拼音也会影响汉字的发音。

自定义词库是定制包的组件之一，用户添加的词语只能在当前资源包被加载时产生效果。

目前支持的特性有：

1. 添加中文、英文、粤语词语；

2. 设置英文词语按字母读或按单词读，但是不支持添加中英文混合的词语；

3. 定制词语的朗读节奏。

特殊符号处理特殊符号主要是指标点符号和其他有意义的字符符号。合成系统在缺省的情况下，一般的特殊符号都不会发音（除了符号“＃＼＞＝＜／＊－＋”等）。在满足特定语境条件（系统自动判断），或用户选择读出特殊符号的情况下，符号表中的符号将按表中显示的拼音来发音。不在符号表中的符号，合成系统在任何情况下都不会发音。

符号拼音汉字符号拼音汉字

、 dun4hao4 顿号 ⑶ san1 三

。 ju4hao4 句号 ⑷ si4 四

· jian4ge2hao4 间隔号 ⑸ wu3 五

— po4zhe2hao4 破折号 ⑹ liu4 六

～ bo1lang4hao4 波浪号 ⑺ qi1 七

… sheng3lue4hao4 省略号 ⑻ ba1 八

‘ zuo3dan1yin3hao4 左单引号 ⑼ jiu3 九

’ you4dan1yin3hao4 右单引号 ⑽ shi2 十

“ zuo3shuang1yin3hao4 左双引号 ⑾ shi2yi1 十一

” you4shuang1yin3hao4 右双引号 ⑿ shi2er4 十二

〔 zuo3kuo4hao4 左括号 ⒀ shi2san1 十三

〕 you4kuo4hao4 右括号 ⒁ shi2si4 十四

〈 zuo3jian1kuo4hao4 左尖括号 ⒂ shi2wu3 十五

〉 you4jian1kuo4hao4 右尖括号 ⒃ shi2liu4 十六

《 zuo3shu1ming2hao4 左书名号 ⒄ shi2qi1 十七

》 you4shu1ming2hao4 右书名号 ⒅ shi2ba1 十八

「 qian2dan1yin3hao4 前单引号 ⒆ shi2jiu3 十九

」 hou4dan1yin3hao4 后单引号 ⒇ er4shi2 二十

『 qian2shuang1yin3hao4 前双引号 ① yi1 一

』 hou4shuang1yin3hao4 后双引号 ② er4 二

± zheng4fu4 正负 ③ san3 三

× cheng2 乘 ④ si4 四

÷ chu2 除 ⑤ wu3 五

∶ Bi3 比 ⑥ liu4 六

∑ qiu2he2 求和 ⑦ qi1 七

∏ qiu2ji1 求积 ⑧ ba1 八

∪ Bing4 并 ⑨ jiu3 九

∩ jiao1 交 ⑩ shi2 十

∈ shu3yu2 属于㈠ yi1 一

√ dui4hao4 对号㈡ er4 二

⊥ Chui2zhi2yu2 垂直于㈢ san3 三

∥ Ping2xing2yu2 平行于㈣ si4 四

∠ jiao3 角㈤ wu3 五

≡ Heng2deng3yu2 恒等于㈥ liu4 六

≌ Quan2deng3yu2 全等于㈦ qi1 七

≈ yue1deng3yu2 约等于㈧ ba1 八

∽ Xiang1si4yu2 相似于㈨ jiu3 九

∝ zheng4bi3yu2 正比于㈩ shi2 十

≠ bu4deng3yu2 不等于 Ⅰ yi1 一

≮ bu4xiao3yu2 不小于 Ⅱ er4 二

≯ bu2da4yu2 不大于 Ⅲ san3 三

≤ Xiao3yu2deng3yu2 小于等于 Ⅳ si4 四

≥ Da4yu2deng3yu2 大于等于 Ⅴ wu3 五

∞ wu2qiong2da4 无穷大 Ⅵ liu4 六

∵ yin1wei2 因为 Ⅶ qi1 七

∴ suo3yi3 所以 Ⅷ ba1 八

° du4 度 Ⅸ jiu3 九

℃ she4shi4du4 摄氏度 Ⅹ shi2 十

＄ mei3yuan2 美元 Ⅺ shi2yi1 十一

￠ mei3fen1 美分 Ⅻ shi2er4 十二

‰ Qian1fen1zhi1 千分之！ Gan3tan4hao4 感叹号

⒈ Yi1 一＃ Jing3hao4 井号

⒉ Er4 二￥ yuan2 元

⒊ san1 三％ bai3fen1zhi1 百分之

⒋ Si4 四（ Zuo3xiao3kuo4hao4 左小括号

⒌ wu3 五） You4xiao3kuo4hao4 右小括号

⒍ liu4 六＊ xing1 星

⒎ Qi1 七＋ jia1 加

⒏ Ba1 八， Dou4hao4 逗号

⒐ jiu3 九－ Jian3 减

⒑ shi2 十． dian3 点

⒒ shi2yi1 十一／ Mei3 每

⒓ shi2er4 十二： Mao4hao4 冒号

⒔ shi2san1 十三； Fen1hao4 分号

⒕ shi2si4 十四＜ Xiao3yu2 小于

⒖ shi2wu3 十五＝ deng3yu2 等于

⒗ shi2liu4 十六＞ da4yu2 大于

⒘ shi2qi1 十七？ Wen4hao4 问号

⒙ shi2ba1 十八［ Zuo3zhong1kuo4hao4 左中括号

⒚ shi2jiu3 十九］ You4zhong1kuo4hao4 右中括号

⒛ Er4shi2 二十｛ Zuo3da4kuo4hao4 左大括号

⑴ Yi1 一｝ You4da4kuo4hao4 右大括号

⑵ Er4 二＂ shuang1yin3hao4 双引号

用户可以通过两种方式来选择是否读出所有的特殊符号：

使用“资源管理中心”程序，在“合成参数”目录的“全部特殊符号发音”项中输入需要的值。该参数设置会影响到本计算机上所有的合成服务，因此如果合成系统已经在运行，设置将在下次重新运行时才生效。

使用iFly TTS SDK进行开发的过程中，执行TTSSynthText函数进行文本合成之前，将参数TTS_PARAM_READALLMARKS设置为需要的值。该参数只在本次合成服务连接过程中有效，在下一次改变该参数之前会一直保持本次的设置。

数字串发音在InterPhonic语音合成系统中，对数字字符串的处理在缺省情况下是靠系统自动判断。合成系统将根据数字串前后的语流环境，例如之前的汉字或特殊符号、之后的汉字或符号及数字字符串本身的特性，决定数字字符串是按照一个数值来发音（如“一千二百三十四”），还是按照一串数字来发音（如“一二三四”）。用户可以通过两种方式来控制文本中数字字符串的发音：

使用iFly TTS SDK进行开发的过程中，执行TTSSynthText函数进行文本合成之前，将参数TTS_PARAM_READNUMBER设置为需要的值，可以选择“系统自动处理”、“按数值发音”、“按数字发音”。该参数只在本次合成服务连接过程中有效，在下一次改变该参数之前会一直保持本次的设置。

在合成文本中，添加TCCM文本标记“NUMW”和“NUME”。该标记会将转义符TEXT等号后的数字串作为一个数值或一串数字发音。采用文本标记的方法只影响标记之后第一个数字字符串的发音，对整个文本的数字字符串处理没有影响。

英文字符串发音在InterPhonic语音合成系统中，通常情况下，如果系统判定当前语句为英文环境，所有的英文字母或单词都按照英文习惯发音；如果当前语句被判定为中文环境或中英文混读环境，所有的英文字母或单词都会按照中文习惯来合成，以达到中英文混读的效果。用户可以通过加词来指定英文单词的发音。

合成系统自动判断英文字符串按字母发音或者按照单词发音，用户可以通过TCCM标记或者TTS SDK指定英文的发音方式。

中文环境中，在作为度量单位的情况下，一些英文字母的组合将转化为汉字来发音，列表如下：

符号拼音汉字符号拼音汉字

pa pa4si1ka3 帕斯卡 gall jia1lun2 加仑

cmhg li2mi3gong3 厘米汞 mmhg hao2mi3gong3 毫米汞

atm Biao1zhun3da4qi4ya1 标准大气压 bar ba1 巴

cal ka3 卡 cmm hu1mi3 忽米

dag shi2ke4 十克 dal shi2sheng1 十升

dam shi2mi3 十米 dmm Si1mi3 丝米

dr da3lan2 打兰 dyn da2yin1 达因

erg er3ge2 尔格 ft ying1chi3 英尺

gi ji2er3 吉耳 gr ge2ling4 格令

ha gong1qing3 公顷 in ying1cun4 英寸

kgf qian1ke4li4 千克力 lb bang4 磅

mi ying1li3 英里 mol mo2er3 摩尔

oz ang4si1 盎司 pk pei4ke4 配克

pt pin3tuo1 品脱 qt kua1tuo1 夸脱

yd ma3 码 hz he4zi1 赫兹

mx mai4ke4si1wei2 麦克思维 oe ao4si1te4 奥斯特

eV dian4zi3fu2te4 电子伏特 wb wei2bo2 韦伯

cd kan3de2la1 坎德拉 cg Li2ke4 厘克

cl li2sheng1 厘升 cm Li2mi3 厘米

dg fen1ke4 分克 dl fen1sheng1 分升

dm fen1mi3 分米 hl bai3sheng1 百升

hg bai3ke4 百克 kl qian1sheng1 千升

hm bai3mi3 百米 km gong1li3 公里

kg gong1jin1 公斤 ml hao2sheng1 毫升

mg hao2ke4 毫克 μm wei1mi3 微米

mm hao2mi3 毫米 μF wei1fa3 微法

注意不同合成系统对度量衡的支持情况有所不同。

停顿风格设置停顿风格是指合成语音中词语之间停顿的长度表现。InterPhonic 语音合成系统允许用户选择五种合成的停顿风格，分别是“抑扬顿挫”、“稍作顿挫”、“正常”、“平缓连贯”、“一气呵成”。在这五种停顿风格中，“一气呵成”对应的词语间停顿最小，语气最连贯。用户可以通过以下方式设置停顿风格：在使用iFly TTS SDK进行开发的过程中，执行TTSSynthText函数进行文本合成之前，将参数TTS_PARAM_STALL_STYLE设置为需要的值。该参数只在本次合成服务连接过程中有效，在下一次改变该参数之前会一直保持本次的设置。

由于停顿风格是通过改变音节间的停顿长短来体现的，这就要求音节之间的衔接比较宽松，否则改变停顿长短就会导致合成效果不自然。但是，按照大语料方法的思想，两个音节之间的衔接应该与语言环境紧密相关，这样才能符合真实的语言环境，所以，如果我们不考虑语语言环境，而仅仅加大或减少停顿，就会导致合成效果变差。倘若能在更改停顿的同时对语速进行调整，就能获得比较好的合成效果。一般情况下，在停顿时间较短的时候，应该加快语速，停顿时间较长则减慢语速。

音库管理 InterPhonic 语音合成系统允许同时安装不同发音人、不同声音数据采样率的多种音库。系统当前支持的音库列表如下：

音库备注

女声音库B alaw格式16K采样率缺省声音的输出格式为16K16Bit线性PCM

女声音库B alaw格式11K采样率缺省声音的输出格式为11K16Bit线性PCM

女声音库B alaw格式8K采样率缺省声音的输出格式为8K16Bit线性PCM

女声音库B alaw格式6K采样率缺省声音的输出格式为6K16Bit线性PCM

用户可以使用“资源管理中心”对当前安装的音库进行管理，支持添加音库、删除音库、加载/不加载音库、缺省音库选择等功能。

用户可以采用两种方法来查询当前可用的音库和音库的ID：

使用“资源管理中心”程序，在“音库管理”目录中，会显示当前安装的音库。“√”标志表示该音库合成时会被自动加载，红旗标志表示该音库是缺省音库。如果改变音库的设置，会影响到本计算机上所有的合成服务，因此如果合成系统已经在运行，更改的内容将在下次重新运行时才生效。

使用iFly TTS SDK进行开发的过程中，使用TTS_PARAM_AVAILABLEVID参数可以查询到当前合成系统可用音库的列表，包括各音库的ID值。

用户可以采用两种方式来选择合成使用的音库：

使用“资源管理中心”程序，在“音库管理”目录中，改变缺省的音库选项，合成时缺省的VID对应的音库就会改变。如果改变音库的设置，会影响到本计算机上所有的合成服务，因此如果合成系统已经在运行，改动将在下次重新运行时才生效。

使用iFly TTS SDK进行开发的过程中，使用TTS_PARAM_VID参数可以改变合成使用的音库。改变音库设置之后，合成输出的声音数据格式会自动设置为该音库采样率对应的16bit线性PCM声音数据格式。该参数只在本次合成服务连接过程中有效，在下一次改变该参数之前会一直保持本次的设置。

声音数据格式 InterPhonic语音合成系统支持的声音数据格式列表如下，注意只有安装了表中“需安装音库”列的音库，该项数据格式才能被支持：

编号数据格式需安装音库

1 8K8bit线性 PCM 8K音库

2 16K8bit线性 PCM 16K音库

3 8K16bit线性 PCM 8K音库

4 16K16bit线性 PCM 16K音库

5 11K8bit线性 PCM 11K音库

6 11K16bit线性 PCM 11K音库

7 6K8bit线性 PCM 6K 音库

8 6K16bit线性 PCM 6K 音库

9 16K alaw 16K音库

10 16K ulaw 16K音库

11 8K alaw 8K音库

12 8K ulaw 8K音库

13 11K alaw 11K音库

14 11K ulaw 11K音库

15 6K alaw 6K 音库

16 6K ulaw 6K 音库

17 8K4bit G.721 ADPCM 8K音库

18 6K4bit G.721 ADPCM 6K 音库

19 8K3bit G.723 ADPCM 8K音库

20 8K5bit G.723 ADPCM 8K音库

21 6K Dialogic Vox 6K 音库

22 8K Dialogic Vox 8K音库

用户可以采用两种方式来选择合成输出的声音数据格式：

使用“资源管理中心”程序，在“合成参数”目录的“输出声音数据格式”项中输入需要的值。改变该参数的设置，会影响到本计算机上所有的合成服务，因此如果合成系统已经在运行，改动将在下次重新运行时才生效。

使用iFly TTS SDK进行开发的过程中，使用TTS_PARAM_AUDIODATAFMT参数改变合成输出的声音数据格式。如果当前使用的音库不支持参数指定的声音数据格式，而其他采样率的音库当前可用，系统会自动修改音库VID值，将其设置成为同一个发音人能支持该种声音数据格式的音库的ID，从而提供对指定声音数据格式的支持。该参数只在本次合成服务连接过程中有效，在下一次改变该参数之前会一直保持本次的设置。

语速调节设置语速调节是指调整输出语音 “说话”的快慢。 InterPhonic语音合成系统提供对缺省语速 0.5－2.0 倍的调节，对应的参数范围是-500－+500，参数值越小，语速越慢。用户可以采用两种方式来调整合成语速：

使用“资源管理中心”程序，在“合成参数”目录的“合成语速”项中输入需要的值。改变该参数的设置，会影响到本计算机上所有的合成服务，因此如果合成系统已经在运行，改动将在下次重新运行时才生效。

使用iFly TTS SDK进行开发的过程中，使用TTS_PARAM_SPEED参数改变合成输出的声音语速。该参数只在本次合成服务连接过程中有效，在下一次改变该参数之前会一直保持本次的设置。

声音数据头设置声音数据头是指合成系统在每次输出声音数据时，声音数据开始部分携带的格式描述信息，包括采样率、量化比特数、压缩方式等。

InterPhonic语音合成系统允许用户选择三种数据头格式：“44字节数据头”、“无数据头”、“标准数据头”。其中，“44字节数据头”是缺省的设置，表示所有格式的声音数据，都会添加一个长度为44字节的标准Windows PCM Wav数据头（请参考Microsoft MSDN Library中相关的信息）。使用“标准数据头”设置，系统会判断输出的声音数据格式并添加不同的数据头：PCM格式的数据会添加长度为44字节的PCM Wav数据头；alaw/ulaw格式的数据会添加长度为58字节的alaw/ulaw Wav数据头；其他格式的声音数据不带数据头。

用户可以采用两种方式来设置声音数据头格式：

使用“资源管理中心”程序，在“合成参数”目录的“输出声音数据头格式”项中输入需要的值。改变该参数的设置，会影响到本计算机上所有的合成服务，因此如果合成系统已经在运行，改动将在下次重新运行时才生效。

使用iFly TTS SDK进行开发的过程中，使用TTS_PARAM_AUDIOHEADFMT参数设置声音数据头格式。该参数只在本次合成服务连接过程中有效，在下一次改变该参数之前会一直保持本次的设置。

输出缓冲区设置 InterPhonic语音合成系统允许用户在系统中设置用于保存声音数据的缓存区的大小，用户可以设置范围在64K～2M内的任意大小的缓冲区。使用较大的缓冲区可以一次获得较多的声音数据。因为每一个合成服务都会有独立的输出缓冲区，使用小的缓冲区将大大减少大容量应用中对内存资源的消耗。

用户可以采用两种方式来设置输出缓冲区大小：

使用“资源管理中心”程序，在缺省使用的资源包配置页的“输出缓冲区大小(K)”项中输入需要的值。改变该参数的设置，会影响到本计算机上所有的合成服务，因此如果合成系统已经在运行，改动将在下次重新运行时才生效。

使用iFly TTS SDK进行开发的过程中，使用TTS_PARAM_OUTBUFSIZE参数设置输出缓冲区大小。该参数只在本次合成服务连接过程中有效，在下一次改变该参数之前会一直保持本次的设置。

CSSML介绍从InterPhonic CE v2.1 语音合成系统开始，语音合成系统将把CSSML（Chinese Speech Synthesis Markup Language）规范作为合成系统的支持标准，InterPhonic CE语音合成系统将逐步实现对该规范中标记的全面支持。

CSSML是原有TCCM标记完全替代方案，原有的所有TCCM标记都可以对应到CSSML规范中去，后续版本的合成系统不会再增加TCCM标记，仅支持现有的TCCM标记。

实现了本项功能后，TTS系统将能够自动识别处理规范格式的CSSML文本，正确支持其中的多项标记，用户也可以通过调用TTSSetSynthParam()函数时指定输入的文本格式为CSSML格式。对需要合成的文本进行编辑，将其编辑为CSSML格式的文本，对一些特殊用法、发音习惯进行单独标记，用以指导合成系统的合成，就可以提高合成效果、解决合成系统无法正确合成的多种问题。

有关CSSML规范的详细说明请参考CSSML规范文档。

TCCM文本标记语音合成系统文本通用控制标记（TCCM）是嵌入在文本中能控制合成的可读字符串序列的书写约定，科大讯飞开发的语音合成系统都实现了本标记约定。通用控制标记定义的基本模式如下：

\\FUNC=...[,param1=...][,...]\\

标记为在两个双反斜杠之间的内容，它的总长度定义为不超过124字节。其中包括标记功能名（FUNC）以及可选的一个或多个附加参数（param1...），其间以半角逗号分隔。标记功能名等号后的内容为缺省参数，可为空白。标记功能名是长度为4的半角大写英文字母序列，其后紧跟半角等号。如果缺省参数值或附加参数值内容中有已保留的字符，请使用转义序列’/’+原字符，’\’写为’/ \’，’/’写为’//’，以此类推。如果没有特殊说明，约定标记作用域为标记之后紧跟的待合成文本，或者在迭代使用时可以是迭代标记后紧跟的待合成文本。合成系统支持的通用标记列表如下：

模式说明样例备注

\\PYIN=pyin\\ 自动按音节数替换标记后文字读音，要求替换的单位是一个词或小于一个词。

“中国\\PYIN=hu2yu4\\人民”

将读成“zhong1 guo2 hu2 yu4”。

\\SMCI=num\\ 将标记后num个数的字强制划分为一个词，num不应大于8。

“中国球员\\SMCI=2\\杨晨攻进了本赛季第二粒入球”

\\TCPG=codepage\\ 将标记之后文本的字符集定义为codepage [GB2312 | GBK | BIG5]。

“\\TCPG=GBK\\话说当代”

本标记的作用域是从当前位置开始，到文本结束或下一个TCPG标记结束。

\\NUMW=,TEXT=text\\ 将转义符TEXT等号后的数字串作为一个数值发音，若text与后不匹配，则按缺省处理发音。

“\\NUMW=,TEXT=123\\123”

123将发音为：“yi1 bai3 er4 shi2 san1”。

\\NUME=,TEXT=text\\ 将转义符TEXT等号后的数字串作为一串数字发音，若text与后不匹配，则按缺省处理发音。

“\\NUME=,TEXT=123\\123”

123将发音为：“yao1 er4 san1”。

\\MHAO=maohao\\ 定义文本标记之后的冒号“:”的读法。其中冒号可以取值[shijian | bifen]，分别表示将冒号作为时间分隔符和比分分隔符。

“比分1\\MHAO=bifen\\：4”1：4发音为：“yi1 bi3 si4”。

“时间1\\MHAO=shijian\\：4” 1：4发音为：“yi1 dian3 si4 fen1”。

冒号“:”可以是全角，也可以是半角。如果本标记之后不是冒号或冒号前后不是数字，本标记无效。

\\DATF=WavFile\\ 在此标记后播放外部数据文件。自动将filename指定的声音数据文件作为输出数据文件的一部分，即在标记处插入指定的声音文件。

“下面是一段录音：\\DATF=c:\memo.wav\\”

使用这个标记可以在合成的过程中播放一段外部数据文件。

该文件的格式必须与当前输出的音频格式相同。

filename必须是单斜杠“\”表示本地绝对路径，不可是网络路径，本标记可以出现在文本的任何地方。

\\RELT=english\\ 自动将english表示的英文串按字母读。

“Anhui \\RELT=USTC\\USTC iFly InfoTEK”

每次只能标记一个连续的英文串标记与英文串之间没有空格，如果标记插入连续的英文串中间，将忽略标记。

\\REWD=english\\ 自动将english表示的英文串按单词读。

“Anhui USTC \\REWD= iFlyInfoTek\\iFlyInfoTek”

同上

\\REPY=english\\ 自动将english表示的英文串汉语按拼音读。

“\\REPY=AnHui\\Anhui USTC iFlyInfoTek”

“\\REPY=li3peng2\\li3peng2”

可以标记带音调正确的拼音串。

加密 InterPhonic语音合成系统的企业版使用HASP软件锁防止非法拷贝和控制授权数量。当用户将软件锁安装到计算机上，并安装软件锁的驱动程序后，合成系统才能正确运行。在Windows环境下，InterPhonic CE系统的安装程序会自动安装HASP软件锁驱动程序。如果用户在使用过程中出现软件锁的相关问题，可以手工安装驱动程序：在安装目录“bin”子目录下，执行“hinstall.exe -i”安装驱动程序。用户可以使用系统提供的软件锁检测工具HaspMan.exe查看软件锁是否正确安装和软件锁的内部信息（包括License数量）。