Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...
Биохимия спиртового брожения: Основу технологии получения пива составляет спиртовое брожение, - при котором сахар превращается...
Топ:
Установка замедленного коксования: Чем выше температура и ниже давление, тем место разрыва углеродной цепи всё больше смещается к её концу и значительно возрастает...
Характеристика АТП и сварочно-жестяницкого участка: Транспорт в настоящее время является одной из важнейших отраслей народного...
Характеристика АТП и сварочно-жестяницкого участка: Транспорт в настоящее время является одной из важнейших отраслей народного хозяйства...
Интересное:
Мероприятия для защиты от морозного пучения грунтов: Инженерная защита от морозного (криогенного) пучения грунтов необходима для легких малоэтажных зданий и других сооружений...
Подходы к решению темы фильма: Существует три основных типа исторического фильма, имеющих между собой много общего...
Принципы управления денежными потоками: одним из методов контроля за состоянием денежной наличности является...
Дисциплины:
2019-11-28 | 174 |
5.00
из
|
Заказать работу |
|
|
Особое место в системах мультимедиа занимает использование аудиоаппаратуры для речевого общения. Структура задач речевого общения приведена на рис. 9.9.
Для распознавания и понимания речи дикторов необходимо ввести речевые сигналы в ЭВМ с помощью акустических устройств ввода и проанализировать вводимую речь.
Системы речевого ввода делятся на два типа по характеру распознаваемой речи:
• системы, ориентированные на восприятие отдельных слов;
• системы, воспринимающие связную речь.
Разница между ними весьма существенна, так как при слитном произношении слов изменяется их звучание.
При анализе отдельных слов (команд) осуществляется их оцифровка, идентификация и инициируется выполнение программы, отрабатывающей принятую команду. Этот же режим используется и для речевого ввода цифровой информации; в этом случае после идентификации введенное слово преобразуется в соответствующий код ASCII (за счет чего достигается существенное сжатие речи). Фирма «Курцвейл» выпускала по этому принципу устройство Voice Writer, которое распознавало около 10000 отдельно произнесенных английских слов и печатало их на принтере.
Сегодня практически отсутствуют устройства для ввода динамически развивающихся звуковых сцен. Устройства ввода и программы-анализаторы не позволяют выделить эмоциональную составляющую речи, которая значительно корректирует смысл (и может даже изменить его до противоположного). Чаще всего эмоциональная составляющая рассматривается как помеха (за исключением систем контроля эмоционального состояния). Как дополнительный источник информации эмоциональная окраска голоса (и введенного сообщения) в настоящее время не используется.
|
Системы речевого вывода называются синтезаторами речи.
Существуют три основных технологически различных подхода к проблеме синтеза речи:
• метод сжатия-восстановления формы сигналов;
• аналоговый метод синтеза формантных частот;
• цифровое моделирование голосового тракта.
Первый метод — самый простой. ЭВМ в этом случае служит как цифровой магнитофон. Фразы и слова записываются раздельно и выбираются для воспроизведения в нужный момент по командам, поступающим от соответствующей программы. В такой системе невозможно воспроизвести слово, которое не было заранее записано.
Для хранения оцифрованной речи требуется память большого объема, так как хранить необходимо каждое слово из лексикона ЭВМ с учетом различных падежных окончаний, рода («пошел-пошла-пошло»), числа и т.д. Но зато качество воспроизведения речи очень высокое.
Разновидностью синтезаторов этого типа являются автоответчики, построенные из ЭВМ и Voice-модема; речевая телепочта (передача речевого сообщения по вычислительным сетям).
Считается, что этот метод эффективен, когда словарный запас невелик — не превышает 10—15 слов (например, говорящий приборный щиток автомобиля, говорящие часы, калькулятор, календарь).
Второй метод использует принципы акустического моделирования голосового тракта человека. Речь составляется из формантных частотных полос, которые создаются полосовыми фильтрами. Суммарный выходной сигнал формантных фильтров достаточно близко соответствует частотному спектру человеческой речи. Но такая речь звучит, как голос робота, разборчивость ее оставляет желать лучшего.
Этот метод универсален: с его помощью можно синтезировать любые слова, иметь неограниченный словарь, так как речь создается из отдельно генерируемых звуков. Синтезатор может быть реализован программным путем.
Наиболее распространенный способ возбуждения синтезатора формантных частот состоит в использовании отдельных, поддающихся идентификации звуков речи, называемых фонемами.
|
Фонемный синтезатор образует последовательность фонем, которая при воспроизведении на акустическом устройстве вывода звучит как речь.
Фонемный синтез речи практически не требует дополнительной аппаратуры; он может быть реализован на ЭВМ стандартной конфигурации программным путем.
Речь разделяется на отдельные элементарные части — фонемы. Например, в английском языке выделяются такие фонемы для гласных звуков, как ее, i, eh и др. (табл. 9.1).
Таблица 9.1 Фонемы гласных звуков английского языка
Фонема | Произношение | F1 | F2 | fз |
ее | feet | 250 | 2300 | 3000 |
i | hid | 375 | 2150 | 2800 |
eh | head | 550 | 1950 | 2600 |
ае | had | 700 | 1800 | 2550 |
ah | tot | 775 | 1100 | 2500 |
aw | talk | 575 | 900 | 2450 |
u | took | 425 | 1000 | 2400 |
oo | tool | 275 | 850 | 2400 |
F 1, F 2, F 3 — три основные формантные частоты, наблюдаемые в спектрограмме при произношении средним мужским голосом.
Однако кроме гласных в речи человека существуют фрикативные, взрывные и носовые согласные. Помимо этого каждая фонема имеет вариации — аллофоны.
В русском языке согласные фонемы бывают мягкие и твердые, глухие и звонкие (шумные, сонорные, губные, зубные, альвеолярные, велярные).
Третий метод использует словарь, который создается голосом человека, но в память записывается не оцифрованный акустический сигнал, а его частотные параметры, при этом уменьшается объем памяти, занимаемый словарем. Синтез же речи производится интегральными микросхемами, генерирующими заданный набор частот с заданными амплитудами и смешивающими их.
|
|
Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...
Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...
Типы сооружений для обработки осадков: Септиками называются сооружения, в которых одновременно происходят осветление сточной жидкости...
Наброски и зарисовки растений, плодов, цветов: Освоить конструктивное построение структуры дерева через зарисовки отдельных деревьев, группы деревьев...
© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!