Раздел 5. Электроника, информационные технологии и телекоммуникация


5.8 Система аудиовизуального синтеза речи по тексту «МУЛЬТИФОН»

Реквизиты организации-разработчика, контактное лицо

ГНУ «Объединённый институт проблем информатики НАН Беларуси»
220012, г. Минск, ул. Сурганова, 6

Белоцерковский А.М.
тел. +375 (17) 284-21-71; e-mail: cic@newman.bas-net.by

Аннотация проекта

МУЛЬТИФОН - это наукоёмкий программный продукт, в котором реализуется модель устного чтения человеком произвольного текста. С точки зрения пользователя МУЛЬТИФОН - это новое средство для осуществления голосового вывода информации из персонального компьютера, дополняющее, а в отдельных случаях, заменяющее визуальный вывод на дисплей. Пользователь персонального компьютера, используя МУЛЬТИФОН, сможет теперь ослабить зрительное напряжение, получая часть информации голосом. Он сможет также получать информацию, находясь в движении на некотором удалении от компьютера, а при использовании дополнительного телефонного интерфейса - передавать или получать речевую информацию по телефону. МУЛЬТИФОН - уникальное средство передачи информации для слепых и отличная возможность создания компьютерных систем обучения устной речи.

Описание проекта

Общая структура системы аудиовизуального синтеза речи по тексту представлена на рис. 1. Входной орфографический текст последовательно подвергается преобразованиям, осуществляемым несколькими процессорами: текстовым, фонетическим, просодическим, акустическим и визуальным.
Текстовый процессор предназначен для преобразования входного орфографического текста в просодически размеченный текст. Процессор выполняет следующие задачи:
- разбиение текста на предложения;
- преобразование чисел, аббревиатур, сокращений и т.д.;
- разбиение предложений на просодические синтагмы;
- расстановку сильных и слабых словесных ударений;
- разбиение синтагм на акцентные единицы (АЕ);
- пределение интонационного типа синтагм.
Просодически размеченный текст поступает в фонетический процессор, который выполняет следующие задачи:
- преобразование орфографического текста в последовательность фонем;
- преобразование последовательности фонем в аллофонную последовательность.
Сформированная аллофонная последовательность поступает на вход двух процессоров: просодического и визуального.
Просодический процессор выполняет следующие задачи:
- разбиение АЕ на элементы акцентных единиц (ЭАЕ): предъядро, ядро и заядро;
- вычисление требуемых значений частоты основного тона (F0), амплитуды (A) и длительности аллофонов (T) в соответствии с портретами акцентных единиц для каждой АЕ.
Акустический процессор использует информацию, поступающую от фонетического и просодического процессоров, для выполнения следующих операций:
- модификация просодических параметров звуковых волн аллофонов и мультифонов;
- конкатенация звуковых волн аллофонов и мультифонов в соответствующую последовательность.
Визуальный процессор использует информацию, поступающую от фонетического процессора, для выбора из БД требуемых визем и их конкатенации.

Общая структура системы аудиовизуального синтеза речи по тексту
Рис. 1. Общая структура системы аудиовизуального синтеза речи по тексту

Необходимо отметить, что все дикторозависимые и языкозависимые данные и правила преобразований организованы в виде специализированных БД, что позволяет использовать систему аудиовизуального синтеза речи по тексту как многодикторную и многоязыковую при добавлении соответствующих лингвистических, акустических и визуальных ресурсов.

Тип технологии

Технические и экономические преимущества

- Высший класс разборчивости синтезированной речи;
- Автоматическое интонирование при синтезе речи по тексту;
- Высокая степень естественности и выразительности чтения текстов;
- Высокое качество синтеза 2-х мужских и 2-х женских голосов;
- Возможность клонирования персонального голоса и манеры чтения;
- Возможность добавление новых голосов и интонационных стилей;
- Двуязычный синтез речи. Языки: русский, белорусский;
- Возможность добавления новых языков;
- Визуальное отображение мимики речи - «Говорящая голова»;
- Возможность персонализации изображения «Говорящей головы»;
- Возможность встраивания системы во внешние приложения с использованием стандарта SAPI 5.1.
Системные требования:
- Операционная система семейства Windows;
- Процессор: Intel Pentium 233 МГц (минимум);
- Память/RAM: 32 Мб (минимум);
- Место на жестком диске: 64 Мбайт (минимум).

Инновационные аспекты предложения

- Интернет-сервис по телефону – чтение e-mail сообщений и др. услуги
- Телефонные справочные системы - «колл-центры»
- Мобильная телефония (озвучивание SMS-сообщений)
- Телефонные системы автоматического информирования
- Речевое сопровождение решения задач САПР
- Голосовое оповещение на транспорте, вокзалах и аэропортах
- Речевые подсказки при редактировании изображений
- Пошаговые голосовые инструкции по монтажу и наладке оборудования
- Чтение электронных книг
- Слуховой контроль таблиц и текстов
- Говорящие рекламные ролики
- Системы компьютерного обучения языку и речи
- Говорящие компьютеры для инвалидов по зрению
- Создание банка голосовых клонов правонарушителей
- Оперативная идентификация личности по голосу
- Имитация голосов при производстве кино- и видеопродукции
- Системы персонализированного оповещения
- Дистанционное обучение с голосом виртуального учителя
- Интеллектуальные виртуальные собеседники

Где была представлена технология

На 13-й, 14-й, 15-ой международных специализированных выставках по телекоммуникациям, информационным и банковским технологиям, системам безопасности TIBO’2006, TIBO’2007, TIBO’2008.
На регулярных выставках НАН Беларуси.

Ключевые слова

Речь, голос, речевой интерфейс, синтез речи, голосовое оповещение.

Текущая стадия развития

Статус прав интеллектуальной собственности

Область применения технологии

Компьютерные и телекоммуникационные системы.

Классификатор Европейской сети трансфера технологий IRC

Предпочитаемые регионы

Практический опыт

Подсистема синтеза речи по тексту используется в составе следующих программных комплексов:
- система автоматического реферирования и голосового озвучивания текстовых документов;
- специализированная система чтения электронных книг слепыми и слабовидящими «Электронная говорящая библиотека»;
- система создания и прослушивания аудиокниг в мобильных телефонах; - компьютерная система заказа авиабилетов, предоставляющая пользователю речевой интерфейс.
Подсистема аудио-визуального синтеза речи по тексту используется в составе мультимодального информационного киоска, осуществляющего диалог с пользователем на естественном языке посредством видео-, звукового и текстового каналов.

Влияние на окружающую среду

Не оказывает.

Предлагаемые формы сотрудничества

Условия и ограничения при передаче технологии

В соответствии с договором или лицензией.

Поддержка, предоставляемая при передаче технологии