Ввод в ЭВМ и машинный синтез речи — КиберПедия 

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...

Таксономические единицы (категории) растений: Каждая система классификации состоит из определённых соподчиненных друг другу...

Ввод в ЭВМ и машинный синтез речи

2019-11-28 172
Ввод в ЭВМ и машинный синтез речи 0.00 из 5.00 0 оценок
Заказать работу

 

Особое место в системах мультимедиа занимает использование аудиоаппаратуры для речевого общения. Структура задач речевого общения приведена на рис. 9.9.

 

Для распознавания и понимания речи дикторов необходимо ввес­ти речевые сигналы в ЭВМ с помощью акустических устройств вво­да и проанализировать вводимую речь.

Системы речевого ввода делятся на два типа по характеру рас­познаваемой речи:

• системы, ориентированные на восприятие отдельных слов;

• системы, воспринимающие связную речь.

Разница между ними весьма существенна, так как при слитном произношении слов изменяется их звучание.

При анализе отдельных слов (команд) осуществляется их оциф­ровка, идентификация и инициируется выполнение программы, отра­батывающей принятую команду. Этот же режим используется и для речевого ввода цифровой информации; в этом случае после иденти­фикации введенное слово преобразуется в соответствующий код ASCII (за счет чего достигается существенное сжатие речи). Фирма «Курцвейл» выпускала по этому принципу устройство Voice Writer, которое распознавало около 10000 отдельно произнесенных английс­ких слов и печатало их на принтере.

Сегодня практически отсутствуют устройства для ввода динами­чески развивающихся звуковых сцен. Устройства ввода и програм­мы-анализаторы не позволяют выделить эмоциональную составляю­щую речи, которая значительно корректирует смысл (и может даже изменить его до противоположного). Чаще всего эмоциональная со­ставляющая рассматривается как помеха (за исключением систем контроля эмоционального состояния). Как дополнительный источник информации эмоциональная окраска голоса (и введенного сообщения) в настоящее время не используется.

Системы речевого вывода называются синтезаторами речи.

Существуют три основных технологически различных подхода к проблеме синтеза речи:

• метод сжатия-восстановления формы сигналов;

• аналоговый метод синтеза формантных частот;

• цифровое моделирование голосового тракта.

Первый метод самый простой. ЭВМ в этом случае служит как цифровой магнитофон. Фразы и слова записываются раздельно и вы­бираются для воспроизведения в нужный момент по командам, по­ступающим от соответствующей программы. В такой системе невоз­можно воспроизвести слово, которое не было заранее записано.

Для хранения оцифрованной речи требуется память большого объе­ма, так как хранить необходимо каждое слово из лексикона ЭВМ с учетом различных падежных окончаний, рода («пошел-пошла-пошло»), числа и т.д. Но зато качество воспроизведения речи очень высокое.

Разновидностью синтезаторов этого типа являются автоответчи­ки, построенные из ЭВМ и Voice-модема; речевая телепочта (переда­ча речевого сообщения по вычислительным сетям).

Считается, что этот метод эффективен, когда словарный запас невелик — не превышает 10—15 слов (например, говорящий прибор­ный щиток автомобиля, говорящие часы, калькулятор, календарь).

Второй метод использует принципы акустического моделирова­ния голосового тракта человека. Речь составляется из формантных частотных полос, которые создаются полосовыми фильтрами. Суммар­ный выходной сигнал формантных фильтров достаточно близко соот­ветствует частотному спектру человеческой речи. Но такая речь зву­чит, как голос робота, разборчивость ее оставляет желать лучшего.

Этот метод универсален: с его помощью можно синтезировать любые слова, иметь неограниченный словарь, так как речь создается из отдельно генерируемых звуков. Синтезатор может быть реализо­ван программным путем.

Наиболее распространенный способ возбуждения синтезатора формантных частот состоит в использовании отдельных, поддающихся идентификации звуков речи, называемых фонемами.

Фонемный синтезатор образует последовательность фонем, кото­рая при воспроизведении на акустическом устройстве вывода звучит как речь.

Фонемный синтез речи практически не требует дополнительной аппаратуры; он может быть реализован на ЭВМ стандартной конфи­гурации программным путем.

Речь разделяется на отдельные элементарные части — фонемы. Например, в английском языке выделяются такие фонемы для глас­ных звуков, как ее, i, eh и др. (табл. 9.1).

Таблица 9.1 Фонемы гласных звуков английского языка

 

Фонема   Произношение   F1   F2   fз  
ее   feet   250   2300   3000  
i   hid   375   2150   2800  
eh   head   550   1950   2600  
ае   had   700   1800   2550  
ah   tot   775   1100   2500  
aw   talk   575   900   2450  
u   took   425   1000   2400  
oo   tool   275   850   2400  

F 1, F 2, F 3 три основные формантные частоты, наблюдаемые в спектрограм­ме при произношении средним мужским голосом.

 

Однако кроме гласных в речи человека существуют фрикатив­ные, взрывные и носовые согласные. Помимо этого каждая фонема имеет вариации — аллофоны.

В русском языке согласные фонемы бывают мягкие и твердые, глухие и звонкие (шумные, сонорные, губные, зубные, альвеолярные, велярные).

Третий метод использует словарь, который создается голосом человека, но в память записывается не оцифрованный акустический сигнал, а его частотные параметры, при этом уменьшается объем памяти, занимаемый словарем. Синтез же речи производится интег­ральными микросхемами, генерирующими заданный набор частот с заданными амплитудами и смешивающими их.

 


Поделиться с друзьями:

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...

Биохимия спиртового брожения: Основу технологии получения пива составляет спиртовое брожение, - при котором сахар превращается...

Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...

Своеобразие русской архитектуры: Основной материал – дерево – быстрота постройки, но недолговечность и необходимость деления...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.011 с.