Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...
Таксономические единицы (категории) растений: Каждая система классификации состоит из определённых соподчиненных друг другу...
Топ:
Когда производится ограждение поезда, остановившегося на перегоне: Во всех случаях немедленно должно быть ограждено место препятствия для движения поездов на смежном пути двухпутного...
Особенности труда и отдыха в условиях низких температур: К работам при низких температурах на открытом воздухе и в не отапливаемых помещениях допускаются лица не моложе 18 лет, прошедшие...
Интересное:
Что нужно делать при лейкемии: Прежде всего, необходимо выяснить, не страдаете ли вы каким-либо душевным недугом...
Подходы к решению темы фильма: Существует три основных типа исторического фильма, имеющих между собой много общего...
Аура как энергетическое поле: многослойную ауру человека можно представить себе подобным...
Дисциплины:
2019-11-28 | 172 |
5.00
из
|
Заказать работу |
|
|
Особое место в системах мультимедиа занимает использование аудиоаппаратуры для речевого общения. Структура задач речевого общения приведена на рис. 9.9.
Для распознавания и понимания речи дикторов необходимо ввести речевые сигналы в ЭВМ с помощью акустических устройств ввода и проанализировать вводимую речь.
Системы речевого ввода делятся на два типа по характеру распознаваемой речи:
• системы, ориентированные на восприятие отдельных слов;
• системы, воспринимающие связную речь.
Разница между ними весьма существенна, так как при слитном произношении слов изменяется их звучание.
При анализе отдельных слов (команд) осуществляется их оцифровка, идентификация и инициируется выполнение программы, отрабатывающей принятую команду. Этот же режим используется и для речевого ввода цифровой информации; в этом случае после идентификации введенное слово преобразуется в соответствующий код ASCII (за счет чего достигается существенное сжатие речи). Фирма «Курцвейл» выпускала по этому принципу устройство Voice Writer, которое распознавало около 10000 отдельно произнесенных английских слов и печатало их на принтере.
Сегодня практически отсутствуют устройства для ввода динамически развивающихся звуковых сцен. Устройства ввода и программы-анализаторы не позволяют выделить эмоциональную составляющую речи, которая значительно корректирует смысл (и может даже изменить его до противоположного). Чаще всего эмоциональная составляющая рассматривается как помеха (за исключением систем контроля эмоционального состояния). Как дополнительный источник информации эмоциональная окраска голоса (и введенного сообщения) в настоящее время не используется.
|
Системы речевого вывода называются синтезаторами речи.
Существуют три основных технологически различных подхода к проблеме синтеза речи:
• метод сжатия-восстановления формы сигналов;
• аналоговый метод синтеза формантных частот;
• цифровое моделирование голосового тракта.
Первый метод — самый простой. ЭВМ в этом случае служит как цифровой магнитофон. Фразы и слова записываются раздельно и выбираются для воспроизведения в нужный момент по командам, поступающим от соответствующей программы. В такой системе невозможно воспроизвести слово, которое не было заранее записано.
Для хранения оцифрованной речи требуется память большого объема, так как хранить необходимо каждое слово из лексикона ЭВМ с учетом различных падежных окончаний, рода («пошел-пошла-пошло»), числа и т.д. Но зато качество воспроизведения речи очень высокое.
Разновидностью синтезаторов этого типа являются автоответчики, построенные из ЭВМ и Voice-модема; речевая телепочта (передача речевого сообщения по вычислительным сетям).
Считается, что этот метод эффективен, когда словарный запас невелик — не превышает 10—15 слов (например, говорящий приборный щиток автомобиля, говорящие часы, калькулятор, календарь).
Второй метод использует принципы акустического моделирования голосового тракта человека. Речь составляется из формантных частотных полос, которые создаются полосовыми фильтрами. Суммарный выходной сигнал формантных фильтров достаточно близко соответствует частотному спектру человеческой речи. Но такая речь звучит, как голос робота, разборчивость ее оставляет желать лучшего.
Этот метод универсален: с его помощью можно синтезировать любые слова, иметь неограниченный словарь, так как речь создается из отдельно генерируемых звуков. Синтезатор может быть реализован программным путем.
Наиболее распространенный способ возбуждения синтезатора формантных частот состоит в использовании отдельных, поддающихся идентификации звуков речи, называемых фонемами.
|
Фонемный синтезатор образует последовательность фонем, которая при воспроизведении на акустическом устройстве вывода звучит как речь.
Фонемный синтез речи практически не требует дополнительной аппаратуры; он может быть реализован на ЭВМ стандартной конфигурации программным путем.
Речь разделяется на отдельные элементарные части — фонемы. Например, в английском языке выделяются такие фонемы для гласных звуков, как ее, i, eh и др. (табл. 9.1).
Таблица 9.1 Фонемы гласных звуков английского языка
Фонема | Произношение | F1 | F2 | fз |
ее | feet | 250 | 2300 | 3000 |
i | hid | 375 | 2150 | 2800 |
eh | head | 550 | 1950 | 2600 |
ае | had | 700 | 1800 | 2550 |
ah | tot | 775 | 1100 | 2500 |
aw | talk | 575 | 900 | 2450 |
u | took | 425 | 1000 | 2400 |
oo | tool | 275 | 850 | 2400 |
F 1, F 2, F 3 — три основные формантные частоты, наблюдаемые в спектрограмме при произношении средним мужским голосом.
Однако кроме гласных в речи человека существуют фрикативные, взрывные и носовые согласные. Помимо этого каждая фонема имеет вариации — аллофоны.
В русском языке согласные фонемы бывают мягкие и твердые, глухие и звонкие (шумные, сонорные, губные, зубные, альвеолярные, велярные).
Третий метод использует словарь, который создается голосом человека, но в память записывается не оцифрованный акустический сигнал, а его частотные параметры, при этом уменьшается объем памяти, занимаемый словарем. Синтез же речи производится интегральными микросхемами, генерирующими заданный набор частот с заданными амплитудами и смешивающими их.
|
|
Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...
Биохимия спиртового брожения: Основу технологии получения пива составляет спиртовое брожение, - при котором сахар превращается...
Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...
Своеобразие русской архитектуры: Основной материал – дерево – быстрота постройки, но недолговечность и необходимость деления...
© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!