Навигация:

Главная Случайная страница Обратная связь ТОП Интересно знать Избранные Новые материалы

Топ:

Когда производится ограждение поезда, остановившегося на перегоне: Во всех случаях немедленно должно быть ограждено место препятствия для движения поездов на смежном пути двухпутного...

Динамика и детерминанты показателей газоанализа юных спортсменов в восстановительном периоде после лабораторных нагрузок до отказа...

Особенности труда и отдыха в условиях низких температур: К работам при низких температурах на открытом воздухе и в не отапливаемых помещениях допускаются лица не моложе 18 лет, прошедшие...

Интересное:

Что нужно делать при лейкемии: Прежде всего, необходимо выяснить, не страдаете ли вы каким-либо душевным недугом...

Подходы к решению темы фильма: Существует три основных типа исторического фильма, имеющих между собой много общего...

Аура как энергетическое поле: многослойную ауру человека можно представить себе подобным...

Дисциплины:

Автоматизация Антропология Археология Архитектура Аудит Биология Бухгалтерия Военная наука Генетика География Геология Демография Журналистика Зоология Иностранные языки Информатика Искусство История Кинематография Компьютеризация Кораблестроение Кулинария Культура Лексикология Лингвистика Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлургия Метрология Механика Музыкология Науковедение Образование Охрана Труда Педагогика Политология Правоотношение Предпринимательство Приборостроение Программирование Производство Промышленность Психология Радиосвязь Религия Риторика Социология Спорт Стандартизация Статистика Строительство Теология Технологии Торговля Транспорт Фармакология Физика Физиология Философия Финансы Химия Хозяйство Черчение Экология Экономика Электроника Энергетика Юриспруденция

Ввод в ЭВМ и машинный синтез речи

2019-11-28

172

0.00 из 5.00 0 оценок

Заказать работу

⇐ ПредыдущаяСтр 4 из 5Следующая ⇒

Особое место в системах мультимедиа занимает использование аудиоаппаратуры для речевого общения. Структура задач речевого общения приведена на рис. 9.9.

Для распознавания и понимания речи дикторов необходимо ввести речевые сигналы в ЭВМ с помощью акустических устройств ввода и проанализировать вводимую речь.

Системы речевого ввода делятся на два типа по характеру распознаваемой речи:

• системы, ориентированные на восприятие отдельных слов;

• системы, воспринимающие связную речь.

Разница между ними весьма существенна, так как при слитном произношении слов изменяется их звучание.

При анализе отдельных слов (команд) осуществляется их оцифровка, идентификация и инициируется выполнение программы, отрабатывающей принятую команду. Этот же режим используется и для речевого ввода цифровой информации; в этом случае после идентификации введенное слово преобразуется в соответствующий код ASCII (за счет чего достигается существенное сжатие речи). Фирма «Курцвейл» выпускала по этому принципу устройство Voice Writer, которое распознавало около 10000 отдельно произнесенных английских слов и печатало их на принтере.

Сегодня практически отсутствуют устройства для ввода динамически развивающихся звуковых сцен. Устройства ввода и программы-анализаторы не позволяют выделить эмоциональную составляющую речи, которая значительно корректирует смысл (и может даже изменить его до противоположного). Чаще всего эмоциональная составляющая рассматривается как помеха (за исключением систем контроля эмоционального состояния). Как дополнительный источник информации эмоциональная окраска голоса (и введенного сообщения) в настоящее время не используется.

Системы речевого вывода называются синтезаторами речи.

Существуют три основных технологически различных подхода к проблеме синтеза речи:

• метод сжатия-восстановления формы сигналов;

• аналоговый метод синтеза формантных частот;

• цифровое моделирование голосового тракта.

Первый метод — самый простой. ЭВМ в этом случае служит как цифровой магнитофон. Фразы и слова записываются раздельно и выбираются для воспроизведения в нужный момент по командам, поступающим от соответствующей программы. В такой системе невозможно воспроизвести слово, которое не было заранее записано.

Для хранения оцифрованной речи требуется память большого объема, так как хранить необходимо каждое слово из лексикона ЭВМ с учетом различных падежных окончаний, рода («пошел-пошла-пошло»), числа и т.д. Но зато качество воспроизведения речи очень высокое.

Разновидностью синтезаторов этого типа являются автоответчики, построенные из ЭВМ и Voice-модема; речевая телепочта (передача речевого сообщения по вычислительным сетям).

Считается, что этот метод эффективен, когда словарный запас невелик — не превышает 10—15 слов (например, говорящий приборный щиток автомобиля, говорящие часы, калькулятор, календарь).

Второй метод использует принципы акустического моделирования голосового тракта человека. Речь составляется из формантных частотных полос, которые создаются полосовыми фильтрами. Суммарный выходной сигнал формантных фильтров достаточно близко соответствует частотному спектру человеческой речи. Но такая речь звучит, как голос робота, разборчивость ее оставляет желать лучшего.

Этот метод универсален: с его помощью можно синтезировать любые слова, иметь неограниченный словарь, так как речь создается из отдельно генерируемых звуков. Синтезатор может быть реализован программным путем.

Наиболее распространенный способ возбуждения синтезатора формантных частот состоит в использовании отдельных, поддающихся идентификации звуков речи, называемых фонемами.

Фонемный синтезатор образует последовательность фонем, которая при воспроизведении на акустическом устройстве вывода звучит как речь.

Фонемный синтез речи практически не требует дополнительной аппаратуры; он может быть реализован на ЭВМ стандартной конфигурации программным путем.

Речь разделяется на отдельные элементарные части — фонемы. Например, в английском языке выделяются такие фонемы для гласных звуков, как ее, i, eh и др. (табл. 9.1).

Таблица 9.1 Фонемы гласных звуков английского языка

Фонема	Произношение	F₁	F₂	f_з
ее	feet	250	2300	3000
i	hid	375	2150	2800
eh	head	550	1950	2600
ае	had	700	1800	2550
ah	tot	775	1100	2500
aw	talk	575	900	2450
u	took	425	1000	2400
oo	tool	275	850	2400

F ₁, F ₂, F ₃ — три основные формантные частоты, наблюдаемые в спектрограмме при произношении средним мужским голосом.

Однако кроме гласных в речи человека существуют фрикативные, взрывные и носовые согласные. Помимо этого каждая фонема имеет вариации — аллофоны.

В русском языке согласные фонемы бывают мягкие и твердые, глухие и звонкие (шумные, сонорные, губные, зубные, альвеолярные, велярные).

Третий метод использует словарь, который создается голосом человека, но в память записывается не оцифрованный акустический сигнал, а его частотные параметры, при этом уменьшается объем памяти, занимаемый словарем. Синтез же речи производится интегральными микросхемами, генерирующими заданный набор частот с заданными амплитудами и смешивающими их.

⇐ Предыдущая 1 2 345 Следующая ⇒

Поделиться с друзьями:

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...

Биохимия спиртового брожения: Основу технологии получения пива составляет спиртовое брожение, - при котором сахар превращается...

Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...

Своеобразие русской архитектуры: Основной материал – дерево – быстрота постройки, но недолговечность и необходимость деления...