第五章 电子学,信息技术和电信行业


5.8依据文本对言语进行音像合成的«MULTIFON»系统

项目负责单位、联系人

白俄罗斯斯国家科学院信息学问题联合研究所
220012,明斯克市,苏尔加诺夫大街,6号

别洛采尔科夫斯基
电话:+375 (17) 284-21-71; e-mail: cic@newman.bas-net.by

项目简介

MULTIFON是一套具有高科技附加值的软件产品,在软件中实现了对任意文本的人工语音建模。站在MULTIFON使用者 的角度,这是一项从计算机进行信息语音输出的新方法,在个别情况下可以替代显示器前的可视化输出。计算机用户利用MULTIFON目前在用声音获得部分信 息的同时,可以减轻视觉疲劳。用户可以在远端或利用备用的电话接口传递和获取语音信息。对于盲人来讲MULTIFON是一套无与伦比的信息传递工具,可以 建立一套卓越的语音计算机操作系统。

项目描述

文本语音音像合成系统公共结构见图1。输出的正字法文本依次经过变换等几个过程:文本、语音、韵律学、声学和可视化等。
文本处理器用于转换输入的正字法文本。处理器执行下列任务:
-从句子上进行文本划分;
-转换数词、缩写词和缩略语等;
-依据韵律结构段划分句子;
-分配强弱重音;
-依据重音律划分结构段;
-结构段语调类型的划分;
韵律标注文本进入语音处理器,语音处理器会执行下列任务:
-转换正字法文本到音位列;
-转换音位列到音位变体列;
形成的音位变体列由两个处理器的入口进入:韵律处理器和可视化处理器。
韵律执行下列任务:
-将重音律单位划分为重音律单位要素:前中心、中心和后中心;
-划分重音单位:
-依据重音律单位的特点明确语音主调型(F0),幅度(A)音位变体长度(T);
声学处理器利用来自于语音和韵律处理器的信息执行下列任务:
-音位变体声波和MULTIFON声波韵律的参数变形;
-依据相应的连续列将音位变体和MULTIFON声波连接;
可视化处理器利用进入语音处理器的信息遴选所需并将其连接。

Общая структура системы аудиовизуального синтеза речи по тексту
图1 文本语音音像合成系统整体结构

必须指出,全部的播音和语音数据、转换规则都被集成在专门的数据库中,如能添加相应的语言学、声学和可视化资源,则可将文本语音音像合成系统作为多播音员和多语种系统采用。

技术类型

经济技术优势

-高清晰合成语音;
-在依据文本合成语音时自动发音;
-文本朗读自然,富有表现力;
-高品质的2位男声和2位女声合成;
-克隆复制个性化语音和朗读习惯;
-可以补充新发音声音和语调形式;
-双语语音合成。俄语和白俄罗斯语;
-可以添加新语言;
-可视化语音表情-“讲话图标”
-个性化“讲话图标”
-系统可作为采用SAPI 5.1.标准的外置附件
系统要求:
-Windows系列操作系统;
- 处理器: Intel Pentium 233 兆赫 (最低);
- 内存/RAM: 32M(最低);
- 硬盘空间: 64М (最低)。

项目创新点

-电话互联网服务:阅读电子邮件和其它服务;
-电话问询系统-“响铃中心”;
-移动电话(语音短信);
-自动信息化电话系统;
-语音协助解决自动化设计系统问题;
-公路客运站、火车站和飞机场的语音播报系统;
-编辑图像时的语音提示;
-指导硬件安装和调试的步进式语音功能;
-朗读电子书;
-表格和文本助听检测;
-语音广告片段;
-计算机教授语言和对话系统;
-盲人使用的语音计算机;
-建立非法用户语音克隆数据库;
-语音个性化识别;
-制作电影和音像制品时的语音模拟;
-个性化通知系统;
-远程虚拟教师语音授课;
-智能虚拟聊天伙伴。

推介该技术的领域

TIBO’2006, TIBO’2007, TIBO’2008,第13,14,15届电讯、信息和银行技术、安全系统国际专业展览会。
例行参加白俄罗斯国家科学院的各类展览会。

关键词

语音,声音,语音接口,语音合成,声音播报

项目目前所处阶段

知识产权资格

技术应用领域

计算机和电讯系统

IRC欧洲创新驿站分类信息

技术适用地区

实践经验

文本语音合成分系统包括下列软件组成:
-文本文件语音发声和自动化摘要系统;
-盲人和弱视用户电子书阅读专用系统“电子有声图书馆”;
-在手机上建立和倾听有声书系统,向用户提供语音接口的机票预订系统;
文本语音音像合成分系统利用了多模态信息平台,借助图像、声音和文本信道实现了人机的自然对话。

对周围环境的影响

对环境无害

合作形式

转让技术的限制和条件

参照相关协议和许可证

转让技术时提供的支持