Импульсно-кодовая модуляция (ИКМ) — КиберПедия 

История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...

Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...

Импульсно-кодовая модуляция (ИКМ)

2021-04-18 119
Импульсно-кодовая модуляция (ИКМ) 0.00 из 5.00 0 оценок
Заказать работу

 

Исходная форма звукового сигнала - непрерывное изменение амплитуды во времени - представляется в цифровой форме с помощью “перекрестной дискретизации” - по времени и по уровню.

Согласно теореме Котельникова, любой непрерывный процесс с ограниченным спектром может быть полностью описан дискретной последовательностью его мгновенных значений, следующих с частотой, как минимум вдвое превышающей частоту наивысшей гармоники процесса; частота выборки мгновенных значений (отсчетов) называется частотой дискретизации.

Из теоремы следует, что сигнал с частотой Fa может быть успешно дискретизирован по времени на частоте 2Fa только в том случае, если он является чистой синусоидой, ибо любое отклонение от синусоидальной формы приводит к выходу спектра за пределы частоты Fa. Таким образом, для временной дискретизации произвольного звукового сигнала (обычно имеющего, как известно, плавно спадающий спектр), необходим либо выбор частоты дискретизации с запасом, либо принудительное ограничение спектра входного сигнала ниже половины частоты дискретизации.

Одновременно с временной дискретизацией выполняется амплитудная - измерение мгновенных значений амплитуды и их представление в виде числовых величин с определенной точностью. Точность измерения (двоичная разрядность N получаемого дискретного значения) определяет соотношение сигнал/шум и динамический диапазон сигнала (теоретически это - взаимно-обратные величины, однако любой реальный тракт имеет также и собственный уровень шумов и помех).

Полученный поток чисел (серий двоичных цифр), описывающий звуковой сигнал, называют импульсно-кодовой модуляцией или ИКМ (Pulse Code Modulation, PCM), так как каждый импульс дискретизованного по времени сигнала представляется собственным цифровым кодом.

Чаще всего применяют линейное квантование, когда числовое значение отсчета пропорционально амплитуде сигнала. Из-за логарифмической природы слуха более целесообразным было бы логарифмическое квантование, когда числовое значение пропорционально величине сигнала в децибелах, однако это сопряжено с трудностями чисто технического характера.

Временная дискретизация и амплитудное квантование сигнала неизбежно вносят в сигнал шумовые искажения, уровень которых принято оценивать по формуле 6N + 10lg (Fдискр/2Fмакс) + C (дБ), где константа C варьируется для разных типов сигналов: для чистой синусоиды это 1.7 дБ, для звуковых сигналов - от -15 до 2 дБ. Отсюда видно, что к снижению шумов в рабочей полосе частот 0..Fмакс приводит не только увеличение разрядности отсчета, но и повышение частоты дискретизации относительно 2Fмакс, поскольку шумы квантования “размазываются” по всей полосе вплоть до частоты дискретизации, а звуковая информация занимает только нижнюю часть этой полосы.

В большинстве современных цифровых звуковых систем используются стандартные частоты дискретизации 44.1 и 48 кГц, однако частотный диапазон сигнала обычно ограничивается возле 20 кГц для оставления запаса по отношению к теоретическому пределу. Также наиболее распространено 16-разрядное квантование по уровню, что дает предельное соотношение сигнал/шум около 98 дБ. В студийной аппаратуре используются более высокие разрешения - 18-, 20- и 24-разрядное квантование при частотах дискретизации 56, 96 и 192 кГц. Это делается для того, чтобы сохранить высшие гармоники звукового сигнала, которые непосредственно не воспринимаются слухом, но влияют на формирование общей звуковой картины.

Для оцифровки более узкополосных и менее качественных сигналов частота и разрядность дискретизации могут снижаться; например, в телефонных линиях применяется 7- или 8-разрядная оцифровка с частотами 8..12 кГц.

Представление аналогового сигнала в цифровом виде называется также импульсно-кодовой модуляцией, так как сигнал представляется в виде серии импульсов постоянной частоты (временная дискретизация), амплитуда которых передается цифровым кодом (амплитудная дискретизация). PCM-поток может быть как параллельным, когда все биты каждого отсчета передаются одновременно по нескольким линиям с частотой дискретизации, так и последовательным, когда биты передаются друг за другом с более высокой частотой по одной линии.

Для улучшения соотношения сигнал/шум и снижения влияния ошибок квантования, которое в случае однобитового преобразователя получается довольно высоким, применяется метод формовки шума (noise shaping) через схемы обратной связи по ошибке и цифрового фильтрования. В результате применения этого метода форма спектра шума меняется так, что основная шумовая энергия вытесняется в область выше половины частоты Fs, незначительная часть остается в нижней половине, и практически весь шум удаляется из полосы исходного аналогового сигнала.

Еще в 60-х годах был принят международный стандарт G.711 - алгоритм оцифровки голоса под названием импульсно-кодовой модуляции. Прямое аналого-цифровое преобразование является низкоэффективным (т. е. Имеющим малую скорость кодирования при заданном качестве) высококачественным методом кодирования. Кодеки, построенные на базе данного метода, работают на скоростях не ниже 32 кбит/с. При этом полоса входного аналогового сигнала ограничена диапазоном 0,3-3,4 кГц. Для повышения качества преобразования полоса может быть расширена до 6 кГц, что соответствует скорости передачи 88 кбит/с при частоте дискретизации 12 кГц (при дальнейшем расширении полосы качество представления речи не повышается). Оцифровка голосового сигнала включает измерение уровня аналогового сигнала через равные промежутки времени. В соответствии со стандартом G.711 принимается, что для узнаваемости голоса необходимо обеспечить передачу его частотных составляющих в диапазоне от 200 до 3400 Гц. Известно, что для правильной передачи всех частотных составляющих необходимо измерять уровень сигнала с частотой 8 кГц. В стандарте также принимается, что оцифровка аналогового сигнала производится с восьмиразрядным разрешением. При этом обычно используется один из двух способов установления соответствия между амплитудой звукового сигнала и цифровым значением - либо A-кодирование (оно принято в Европе и Азии), либо мю-кодирование (принятое в США, Канаде и некоторых других странах). Они представляют собой таблицы соответствия между измеряемым значением напряжения и числом, при помощи которого оно кодируется. Для передачи одного голосового канала в цифровом виде требуется пропускная способность 64 кбит/с (8 кГц х 8 разрядов). Именно эта величина и используется в качестве единицы измерения пропускной способности каналов современных цифровых сетей. Во время воспроизведения каждое значение дискретизации преобразует в соответствующее значение напряжения, которое затем усиливается и подается на динамик или наушники. При изменении значения оцифрованного звука меняется напряжение, а динамик преобразует изменение напряжения в изменение звукового давления, которое в виде звуковой волны распространяется в воздухе и достигает уха. Наиболее очевидный подход заключается в использовании линейной связи (linear relation), при которой, например, увеличение значения цифрового представления звука вдвое будет приводить к увеличению напряжения также в два раза. Однако этот подход не эффективен. Человеческое ухо воспринимает звук нелинейно: разница между малыми цифровыми представлениями звукового сигнала может быть слишком велика для слабых звуков, в то время как разница между большими представлениями будет слишком мала, чтобы ухо ее различило. Принимая во внимание указанную природу человеческого слуха вводят логарифмическую шкалу. Соотношения m-Law и A-Law соответствуют этой шкале. Соотношение m-Law используется, прежде всего, в Северной Америке и в Японии.

Соотношения m-Law и A-Law позволяют восьмиразрядные измерения представлять в том же диапазоне, что и линейные 12-разрядные. Таким образом, можно получить более чем 30% сжатия.

На рисунке 1.1, приведены обобщенные кривые, характеризующие помехоустойчивость различных методов цифрового представления речи:

Рисунок 1.1 Помехоустойчивость различных методов цифрового представления.

·         кривая 1 соответствует ИКМ-представлению;

·         А - область нечувствительности к ошибкам;

·         В - слабая чувствительность;

·         С - потеря работоспособности;

·         Рош - вероятность ошибки на символ;

·         SNR - отношение сигнал/шум, рассчитанное через среднеквадратическую ошибку восстановления.

ИКМ-кодеки имеют наихудшие показатели помехоустойчивости. На рисунке можно увидеть, что изо всех кривых (характеристик разных способов цифрового представления речи) самый короткий относительно других типов ЦПР участок А (нечувствительность к ошибкам в канале) имеет кривая 1. Кодеки могут потерять работоспособность, даже если вероятность ошибки равна 10-5, что соответствует параметрам канала среднего класса. Системы с ИКМ работают только в области нечувствительности к ошибкам в канале, но даже в этом случае вводятся специальные меры для устранения последствий возникновения одиночных ошибок. При использовании алгоритма ИКМ со скоростью передачи 64 кбит/с кодек имеет максимальную область нечувствительности к ошибкам в канале при высоком качестве восстановления. Поэтому данный алгоритм рекомендован для большинства систем цифровой передачи речи в качестве метода предварительного аналого-цифрового преобразования.

Параметры ИКМ при оцифровке речевых сигналов описаны в рекомендациях МККТТ (Международный консультативный комитет по телефонии и телеграфии, CCITT) и, как правило, имеют следующие значения: - частота дискретизации 8000 Гц; - число двоичных разрядов на отсчет 8; - скорость передачи 64000 бит/c. При этом может быть оцифрован и восстановлен аналоговый сигнал с верхней частотой до 4000 Гц.

При использовании дифференциальной (разностной) ИКМ (ДИКМ, Differencial PCM, DPCM) вместо кодирования отсчетов кодируются разности между соседними отсчетами. Обычно разности отсчетов меньше самих отсчетов. Скорость передачи цифрового потока снижается до 32-56 кбит/c. В системах с логарифмической ДИКМ используют А- и мю законы компандирования для реализации неравномерного квантования. Компандирование - способ преобразования речевого сигнала, при котором на передающем конце тракта происходит сжатие по одному или нескольким измерениям (частотный диапазон, динамический диапазон, временной интервал), а на приёмном - восстановление первоначального объёма сигнала путём соответствующего расширения. Адаптивная ДИКМ (АДИКМ, Adaptive Differencial PCM, ADPCM) - система ДИКМ с адаптацией квантователя (АЦП и ЦАП) и предсказателя. При АДИКМ оцифровывается не сам сигнал, а его отклонение от предсказанного значения (сигнал ошибки, ошибка предсказания). Данный метод предложен в качестве стандарта комитетом CCITT.

Наиболее часто применяются следующие разновидности АДИКМ:

рекомендация G.721 МККТТ (скорость передачи 32 кбит/с);

рекомендация G.722 МККТТ (частота дискретизации 16 000 Гц);

рекомендация G.723 МККТТ (скорость передачи 24 кбит/с);

Creative ADPCM (4, 2,6 или 2 бита на отсчет);

IMA/DVI ADPCM (4, 3 или 2 бита на отсчет);

Microsoft ADPCM.

Рассмотренные выше методы могут вносить незначительные изменения и потери в речевые сигналы (например, сужение динамического диапазона в области высших частот, ограничение крутизны сигнала), которые практически не влияют на аутентичность речи. Один из наиболее общепринятых и давно используемых алгоритмов сжатия речи называется ADPCM, стандарт G.726 был принят в 1984 году). Этот алгоритм дает практически такое же качество воспроизведения речи, как и PCM, однако для передачи информации при его использовании требуется полоса всего в 32 кбит/с. Метод основан на том, что в аналоговом сигнале, передающем речь, невозможны резкие скачки интенсивности. Поэтому если кодировать не саму амплитуду сигнала, а ее изменение по сравнению с предыдущим значением, то можно обойтись меньшим числом разрядов. В ADPCM изменение уровня сигнала кодируется четырехразрядным числом, при этом частота измерения амплитуды сигнала сохраняется неизменной. Все методы кодирования, основанные на определенных предположениях о форме сигнала, плохо работают в ситуации, когда сигнал может передаваться с резкими скачками амплитуды. Именно такой вид имеет аудиосигнал, генерируемый модемами или факсимильными аппаратами. Современные системы обмена информацией, поддерживающие цифровые линии связи, умеют распознавать факсимильный обмен и передают соответствующие сигналы непосредственно в цифровом виде, не преобразуя их в аудиосигнал. Оба описанных метода кодирования (их называют методами кодирования формы сигнала) работают весьма прямолинейно. Для достижения более высоких степеней сжатия при сохранении пристойного качества звучания необходимы более усложненные методы, основанные на использовании более глубоких особенностей речи. В марте 1995 года ITU принял новый стандарт G.723, который предполагается использовать при сжатии речи для организации видеоконференций по телефонным сетям. Этот стандарт является частью более общего стандарта H.324, описывающего подход к организации таких видеоконференций, при этом целью является обеспечение видеоконференций с использованием обычных модемов. Основой G.723 является метод сжатия речи MP-MLQ (Multipulse Maximum Likelihood Quantization). Он позволяет добиться весьма существенного сжатия речи при сохранении достаточно высокого качества звучания. В основе метода лежит описанная выше процедура оптимизации; с помощью различных усовершенствований можно сжимать речь до уровня 4,8; 6,4; 7,2 и 8,0 кбит/с. Структура алгоритма позволяет на основе программного обеспечения изменять степень сжатия голоса в ходе передачи. Вносимая кодированием задержка не превышает 20 мс. Как показали испытания, проведенные ведущими американскими и европейскими телекоммуникационными компаниями, качество голоса, получаемое при сжатии методом MP-MLQ до уровня 6,4 кбит/с, не ниже того, что дает ADPCM при сжатии до 32 кбит/с.

Согласно рекомендации G.726 к стандарту, метод ADPCM (АДИКМ) может быть использован для осуществления двустороннего преобразования PCM-сигнала, передаваемого по каналу с пропускной способностью 64 кбит/c, в PCM-сигнал, предназначенный для передачи по каналам с минимальными пропускными способностями 40, 32, 24 или 16 кбит/c.

Во время работы метода адаптивный предсказатель осуществляет предсказание уровня поступающего равномерно квантованного сигнала. Входной сигнал имеет 256 уровней квантования и частоту дискретизации 8 кгц. В сумматоре происходит алгебраическое сложение входного и предсказанного сигнала. Разностный сигнал поступает в адаптивный квантователь, где производится логарифмическое квантование. Число уровней квантования, согласно стандарту, может быть равно 16, 8, 4 или 2. (Соответственно сигнал может быть передан по каналам с минимальными пропускными способностями 40, 32, 24 или 16 кбит/c.) Другие параметры квантования частично определяются в стандарте, а частично зависят от характеристик обрабатываемого сигнала.

С выхода адаптивного квантователя сигнал одновременно поступает в обратный адаптивный квантователь и в канал передачи. Обратный адаптивный квантователь предназначен для перевода логарифмически квантованного PCM-сигнала в равномерно квантованный разностный сигнал. Получаемый разностный сигнал может не совпадать с исходным разностным сигналом. Обратное преобразование необходимо для того, чтобы обеспечить одинаковое предсказание на этапах кодирования и декодирования.

С выхода обратного адаптивного квантователя равномерно квантованный разностный сигнал одновременно поступает на вход адаптивного предсказателя и на вход сумматора. Последний осуществляет суммирование данного сигнала с предсказанным сигналом. Полученный в результате суммирования сигнал также поступает на вход адаптивного предсказателя.

Адаптивный предсказатель осуществляет предсказание на основе 6 последних выборок обрабатываемого сигнала. При этом учитываются особенности данного сигнала. (Учет производится посредствам адаптивного изменения параметров предсказывающей функции.)

Процесс декодирования в методе ADPCM схож с процессом кодирования. ADPCM-сигнал поступает на вход обратного адаптивного квантователя. Равномерно квантованный разностный сигнал одновременно поступает на сумматор и адаптивный предсказатель. На сумматор также поступает предсказанный сигнал. Полученный в результате сложения восстановленный сигнал одновременно поступает в адаптивный предсказатель и синхронизатор. В синхронизатор также поступает входной ADPCM-сигнал. Синхронизатор служит для устранения накопленного временного искажения. С выхода синхронизатора PCM-сигнал поступает в выходной канал с пропускной способностью 64 кбит/c.

Правильное декодирование сигнала становится возможным благодаря одинаковым предсказаниям, вычисляемым адаптивным предсказателем на этапах кодирования и декодирования. Отметим, что одним из важных условий корректного декодирования является отсутствие ошибок в канале передачи.

Метод ADPCM чаще всего применяется для сжатия аудио сигналов и, в особенности, голосовых сообщений. Он нашел свое применение во многих устройствах передачи звуковой информации, начиная с голосовых модемов и заканчивая мобильными телефонами.

АДИКМ является основой стандарта ITU G.727, который определяет преобразование речи методом EADPCM - Embedded Adaptive Differential Pulse Code Modulation (вложенная адаптивная дифференциальная импульсно-кодовая модуляция). Согласно данному стандарту, речевой сигнал преобразуется в цифровой вид методом АДИКМ. Затем формируется речевой кадр, состоящий из блоков бит, причем первый блок содержит старшие биты всех закодированных отсчетов, второй блок - следующие по убыванию старшинства биты и т.д. В пределах блока, биты упорядочиваются согласно номеру отсчета, который они определяют. Особенность этого метода заключается в том, что некритичная к удалению информация расположена в позициях, где она может быть легко отвергнута (в конце кадра).

Например, в случае преобразования EADPCM (4,2) в речевом кадре будет содержаться четыре блока, и наименее значимые блоки - два последних (блоки расширения), могут отвергаться в случае перегрузки. Эта особенность используется в рекомендации FRF.11, регламентирующей передачу речи по сети Frame Relay. Согласно Приложению G этой рекомендации сформированный методом EADPCM речевой кадр передается в двух кадрах Frame Relay: основная информация - в кадрах с битом DE=0 (Discard Eligibility - Разрешение Сброса), и информация расширения - в кадрах с установленным битом (DE=1). Это означает что в случае перегрузки, кадры с установленным битом DE могут быть уничтожены.

Все методы кодирования, основанные на определенных предположениях о форме сигнала, не подходят при передаче сигнала с резкими скачками амплитуды. Именно такой вид имеет сигнал, генерируемый модемами или факсимильными аппаратами, поэтому аппаратура, поддерживающая сжатие, должна автоматически распознавать такие сигналы и обрабатывать их иначе, чем речевой трафик.

 

Линейное предсказание

 

Идея линейного предсказания (ЛП) такова: сформировать из нескольких отсчетов речи линейную комбинацию. Для этого сигнал речи сегментируют на блоки, обрабатывают окном и для каждого блока вычисляют автокорреляционную функцию (АКФ), число отсчетов которой обычно около 10. Оказывается, что такая АКФ содержит исчерпывающую информацию о формантном спектре речи на данном сегменте. На втором шаге находят решение системы линейных уравнений относительно коэффициентов предсказания - тех самых, что нужны для формирования синтезирующего фильтра. Фактически найденные коэффициенты задают спектральную модель голосового аппарата человека, и чем выше порядок ЛП, тем точнее модель. Пропустив исходную речь через фильтр, обратный полученному, мы получаем функцию, близкую к сигналу возбуждения. В ее спектре формантные области сглажены, а спектральный характер напоминает белый шум. Поэтому обратный фильтр также называют отбеливающим. Параметры ЛП квантуются, после чего передаются на приемную сторону. А ошибка предсказания (разностный сигнал), обозначенный в формуле 2 через R(n), обрабатывается с целью выделения существенных для человеческого восприятия параметров. Например, в простейших кодеках ЛП передается период ОТ и мощность возбуждающих импульсов. В кодеке RPE-LTP таких импульсов уже несколько, а в кодеках CELP (code-excited linear prediction - ЛП с кодовым возбуждением) вместо передачи самих импульсов подбирается наиболее подходящая запись из набора хранящихся в заранее сформированной кодовой книге. Тогда, вместо самой последовательности можно на прием передать ее порядковый номер в кодовой книге. Однако существуют и другие подходы. В любом случае по каналу связи вместо самой речи передают так или иначе выделенные и квантованные параметры предсказания, интервал и усиление ОТ, параметры возбуждения. В декодере ЛП по принятым параметрам восстанавливают сигнал возбуждения, пропускают его через синтезирующий фильтр и так восстанавливают речь.

В спектре звонкой речи на фоне общего спадания его к верхним частотам просматриваются три резонансные области - в районе 300 Гц, 1700 Гц и 2600 Гц, - описанные выше форманты. Спектр же возбуждения, сохраняя линейчатость (голосовые связки, вспомним, колеблются периодически), выровнен по амплитуде, или, как еще говорят, отбелен. Это происходит потому, что возбуждение носит случайный шумовой характер, хотя и следующий с некоторой периодичностью. Обратите также внимание на то, что энергия возбуждения много меньше энергии самой речи, то есть синтезирующий фильтр помимо спектрального окрашивания еще и усиливает входной сигнал. Говорят, что в ближней зоне сигнал возбуждения декоррелирован (статистически независим), что, кстати, усложняет его сжатие, и, напротив, в дальней зоне корреляция очень высока, достигая максимума в точке, равной периоду ОТ. Последнее свойство очень полезно, так как свидетельствует об избыточности, и в этом заложен большой ресурс для сжатия. Из-за периодичности сигналов присутствующий на показанном участке звонкой речи случайный компонент визуально обнаружить довольно трудно. Но он есть, и именно из-за него спектр речи в областях между гармониками частоты ОТ не спадает до нуля. Опыт разработки кодеков показал, что этот случайный компонент необходим для полноценного восприятия. Без него синтезированная речь звучит неестественно (вспомним, как иной раз разговаривает цифровой сотовый или Интернет-телефон). Артикуляционные изменения характеристик синтезирующего фильтра, формирующие звуки речи, происходят непрерывно, но медленно. Поэтому при сжатии речь сегментируют на короткие блоки (длиной 5-30 мс), в пределах которых параметры этого фильтра считают постоянными (свойство локальной квазистационарности речи). Известно, что значение ОТ для разных голосов может изменяться почти в 10 раз - от 2 до 18 мс. Это обстоятельство создает немало трудностей при оценке ОТ, так как слух очень чувствителен к его искажениям. Методов измерения ОТ известно очень много, и ежегодно на международных конференциях ICASSP (International Conference on Acoustics, Speech and Signal Processing) предлагаются всё новые и новые, так как до сих пор достаточно надежный и простой и, вместе с тем, не требующий чрезмерной задержки метод пока не появился. Что касается сокращенного описания сигнала возбуждения в целом, то с этим дела обстоят еще хуже: эффективных "конструктивных" методов не предложено, и значительная часть вычислительного ресурса CELP-кодеков, к примеру, расходуется именно на кодирование возбуждения.

Возбуждение, хотя и лишенное периодической составляющей, в голосовом тракте получило какое-то спектральное усиление, что отражено на спектре, а в целом, что речь, что возбуждение малокоррелированы. После появления первых вокодеров случилась “пауза”: развитие техники связи и появление многоканальных высококачественных телефонных линий, с одной стороны, и неразвитость цифровой техники, с другой, на некоторое время ослабили интерес к сжатию речи. Вокодеры уцелели только в системах засекреченной военной и правительственной связи, в некоторых каналах спецрадиосвязи, вроде аэродромной. А в нарождающейся цифровой связи господствовали два алгоритма нелинейной ИКМ, обеспечивающие прекрасное телефонное качество. Два - потому, что в Европе (”А-закон”) и в США (”мю-закон”) были приняты разные реализации одного и того же стандарта. Отсутствие единого стандарта с развитием международных связей стало очень неудобным, так как требовало перекодировки речи при передаче речевого сигнала из одной сети связи в другую, а с учетом того, что трафик между США и Европой большой, то и перекодировок требовалось немало. Вынужденная перекодировка вносит дополнительные шумы и снижает оценку MOS. Логарифмическая ИКМ никак не использует взаимную корреляцию между соседними отсчетами речи, поэтому первым примером сжимающей обработки стоит считать дифференциальную ИКМ (ДИКМ), при которой осуществляется предсказание речи первого порядка. Предыдущий отсчет берется с определенным весом, формируя прогноз. Разница между предсказанным и реальным отсчетом речи подвергается квантованию. Позднее появилась более продвинутая технология - адаптивная дифференциальная ИКМ (АДИКМ). При АДИКМ размеы шкалы квантования подстраивают в соответствии с энергией речи так, чтобы слабые сигналы квантовались малыми ступенями квантования, а сильные сигналы - большими. Благодаря непрерывной подстройке шага квантования к текущей мощности речи, разрядность шкалы квантования при АДИКМ удалось снизить до четырех бит и получить кодек со скоростью передачи 32 кбит/с и качеством, близким к ИКМ. В качестве входного сигнала в LPC используется та же последовательность цифровых значений амплитуды, однако этот метод применяется не к отдельным цифровым значениям, а к определенным их блокам. Для каждого такого блока значений вычисляются его характерные параметры: частота, амплитуда и ряд других. Именно эти значения и передаются по сети. При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям специализированных процессоров, используемых для обработки сигнала, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере. Задержка в передаче речи при использовании этого метода связана не только с необходимостью обработки цифрового сигнала (эту задержку можно уменьшать, увеличивая мощность процессора), а непосредственно следует из характера метода сжатия. Этот метод позволяет, вообще говоря, достигать очень больших степеней сжатия, которым соответствует полоса пропускания 2,4 или 4,8 кбит/с, однако качество звука здесь сильно страдает. Поэтому в коммерческих приложениях он не используется, а применяется в основном для ведения служебных переговоров.

Более сложные методы сжатия речи основаны на применении LPC в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода. Закодировав сигнал, процессор пытается восстановить его форму и считает результат с исходным сигналом, после чего начинает варьировать параметры кодировки, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи; на противоположном конце происходит восстановление звукового сигнала. Ясно, что для использования такого метода требуются еще более серьезные вычислительные мощности. Одной из наиболее распространенных разновидностей описанного метода кодирования является метод LD-CELP (Low-Delay Code-Excited Linear Prediction). Этот метод позволяет достичь удовлетворительного качества воспроизведения при пропускной способности 16 кбит/с; он был стандартизован Международным союзом электросвязи (International Telecommunications Union - ITU) в 1992 году как алгоритм кодирования речи G.728. Алгоритм применяется к последовательности цифр, получаемых в результате аналого-цифрового преобразования голосового сигнала с 16-разрядным разрешением.

Пять последовательных цифровых значений кодируются одним 10-битовным блоком - это и дает те самые 16 кбит/с. Для применения этого метода требуются очень большие вычислительные мощности, в частности, для прямолинейной реализации G.728 необходим процессор с быстродействием 44 mips.

Более сложные методы сжатия речи основаны на применении метода линейного предсказания речи в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода. Закодировав сигнал, процессор пытается восстановить его форму и сравнивает результат с исходным сигналом, после чего начинает варьировать параметры кодирования, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи. На противоположном конце происходит восстановление речевого сигнала. Ясно, что для использования такого метода требуются еще более серьезные вычислительные мощности.

 

Вокодер

 

Одним из основных узлов ПО пакетирования речи является вокодер. Вокодер (voice coder) представляет собой устройство (или алгоритм), осуществляющее параметрическое компандирование речевого сигнала. В разработке находятся вокодеры, способные разбивать речь на осмысленные элементы - фонемы. Это может дать возможность передавать речь по очень узким каналам. Вокодер производит синтез pечи на основе пpоизвольного входного сигнала с богатым спектpом. Речевой синтез pеализуется пpи помощи фоpмантных пpеобpазований, выделение из сигнала с достаточным спектpом нужного набоpа фоpмант с нужными соотношениями пpидает сигналу свойства соответствующего гласного звука. Путем анализа исходного pечевого сигнала из него выделялась инфоpмация, об изменении положений фоpмант (пеpеход от звука к звуку), котоpая кодиpовалась и пеpедавалась по линии связи, а на пpиемном конце блок упpавляемых фильтpов и усилителей синтезиpовал pечь заново.

Изначально вокодеры были разработаны в целях экономии частотных ресурсов радиолинии системы связи при передаче речевых сообщений. Экономия достигается за счет того, что вместо собственно речевого сигнала передают только значения его определенных параметров, которые на приемной стороне управляют синтезатором речи. Основу синтезатора речи составляют три элемента: генератор тонального сигнала для формирования гласных звуков, генератор шума для формирования согласных и система формантных фильтров для воссоздания индивидуальных особенностей голоса. После всех преобразований голос человека становится похожим на голос робота, что вполне терпимо для средств связи и интересно для музыкальной сферы.

Вокодер как необычный эффект был взят на вооружение электронными музыкантами и в последствии стал полноценным эффектом благодаря фирмам-изготовителям музыкального оборудования. Вокодер как музыкальный эффект позволяет перенести свойства одного (модулирующего) сигнала на другой сигнал, который называют носителем. В качестве сигнала-модулятора используется голос человека, а в качестве носителя - сигнал, формируемый музыкальным синтезатором или другим музыкальным инструментом.

Наиболее эффективными являются вокодеры на основе метода линейного предсказания речи. Вокодеры данного типа работают уже с целыми блоками подготовленных отсчетов. Для каждого такого блока значений вычисляются его характерные параметры: частота, амплитуда и ряд других. Затем из значений этих параметров формируется речевой кадр, готовый для передачи. При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям ЦПОС, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере. Характеристики некоторых основных алгоритмов кодирования речи приведены в таблице 1.2.


 

Таблица 1.2 Основные характеристики наиболее известных типов вокодеров

Название алгоритма Рекомендация Скорость алгоритма (кбит/с) Размер речевого кадра (октетов) Задержка накопления (мс)
CS-ACELP ITU G.729 8 10 10
PCM ITU G.711 64 40 5
    56 35 5
    48 30 5
ADPCM ITU G.726 40 25 5
    32 20 5
    24 15 5
    16 10 5
LD-CELP ITU G.728 16 10 5
MP-MLQ ITU G.723.1 06.03.08 24 30
ACELP ITU G.723.1 5.3 20 30

 

Важной характеристикой любого вокодера является качество воспроизводимой речи. В Таблице 1.3 приведены оценки MOS для различных методов кодирования.

 

Таблица 1.3 Показатели MOS основных алгоритмов кодирования речи

Название алгоритма MOS
G.711 (PCM; 64 кбит/c) 4,1
G.726 (ADPCM; 32 кбит/c) 3,8
G.728 (LD-CELP; 16 кбит/c) 3,6
G.723.1 (ACELP; 5,3 кбит/c) 3,7
G.723.1 (MP-MLQ; 6,3 кбит/c) 3,9

 

Наиболее предпочтительным среди приведенных методов кодирования с точки зрения соотношения качество речи / скорость потока является алгоритм G.723.1. Большинство кодеков, используемых в IP-телефонии, описаны рекомендациями семейства «G» стандарта H.323

Все методы кодирования, основанные на определенных предположениях о форме сигнала, не подходят при передаче сигнала с резкими скачками амплитуды. Именно такой вид имеет сигнал, генерируемый модемами или факсимильными аппаратами, поэтому аппаратура, поддерживающая сжатие, должна автоматически распознавать сигналы факс-аппаратов и модемов и обрабатывать их иначе, чем голосовой трафик. Многие методы кодирования берут свое начало от метода кодирования с линейным предсказанием LPC (Linear Predicative Coding). В качестве входного сигнала в LPC используется последовательность цифровых значений амплитуды, но алгоритм кодирования применяется не к отдельным цифровым значениям, а к определенным их блокам. Для каждого такого блока значений вычисляются его характерные параметры: частота, амплитуда и ряд других. При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям специализированных процессоров, используемых для обработки сигнала, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере.

Важно, что задержка в передаче речи связана не только с необходимостью обработки цифрового сигнала (эту задержку можно уменьшать, увеличивая мощность процессора), но и непосредственно с характером метода сжатия. Метод кодирования с линейным предсказанием LPC позволяет достигать очень больших степеней сжатия, которым соответствует полоса пропускания 2,4 или 4,8 кбит/с, однако качество звука здесь сильно страдает. Поэтому в коммерческих приложениях он не используется, а применяется в основном для ведения служебных переговоров. Более сложные методы сжатия речи основаны на применении LPC в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода. Закодировав сигнал, процессор пытается восстановить его форму и сличает результат с исходным сигналом, после чего начинает варьировать параметры кодировки, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи; на противоположном конце происходит восстановление звукового


Поделиться с друзьями:

Архитектура электронного правительства: Единая архитектура – это методологический подход при создании системы управления государства, который строится...

Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...

Организация стока поверхностных вод: Наибольшее количество влаги на земном шаре испаряется с поверхности морей и океанов (88‰)...

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.11 с.