Перцептивное кодирование аудиосигналов — КиберПедия 

Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...

История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...

Перцептивное кодирование аудиосигналов

2017-11-18 547
Перцептивное кодирование аудиосигналов 0.00 из 5.00 0 оценок
Заказать работу

Алгоритмы перцептивного кодирования обеспечивают снижение корреляционной зависимости между отсчетами аудиосигнала, а также исключение элементов сигнала, не воспринимаемых человеком на слух. Достигается это вычислением слабо коррелированных спектральных составляющих аудиосигналов и адаптивным квантованием только тех составляющих, уровень которых выше порога маскирования.

Применяются два основных подхода для построения перцептивных кодеров: кодирование с использованием гребенки полосо-пропускающих фильтров и кодирование с применением ортогональных преобразований [33]. Оба подхода основаны на выполнении кратковременного спектрального анализа входных аудиосигналов.

В первом случае входной аудиосигнал поступает на блок фильтров анализа, состоящий из М полосовых фильтров, каждый из которых пропускает соответствующую частотную полосу аудиосигнала. Полосы пропускания фильтров-анализа частично перекрываются и выбираются так, чтобы сумма выходных полосовых сигналов соответствовала исходному аудиосигналу. Выходной сигнал каждого из фильтров децимируется с коэффициентом М и подвергается адаптивному квантованию. Алгоритмы адаптивного квантования учитывают свойства слуховой системы человека. В декодере выполняются обратные процессы: полосовые сигналы сначала интерполируются с коэффициентом М, а затем восстанавливаются с помощью блока полосовых фильтров-синтеза. Из-за перекрытия полос пропускания фильтров в процессе децимации могут возникать искажения. Данные искажения обусловлены шумами наложения. Шумы наложения могут быть по­давлены, если в качестве полосовых фильтров использовать квадратурные зеркальные фильтры [3,33]. Однако последующее квантование выходных сигналов фильтров не позволяет исключить их полностью. Это снижает динамический диапазон восстановленного сигнала.

Во втором случае на основе ортогональных преобразований вычисляются слабо коррелированные спектральные коэффициенты, которые затем подвергаются адаптивному квантованию. Обычно в качестве ортогонального преобразования применяется дискретное преобразование Фурье или дискретное косинусное преобразование (ДКП), каждое из которых может вычисляться на основе алгоритма БПФ. В декодере реализуются обратные процессы. При этом конечная длина преобразований приводит к появлению краевых эффектов в восстановленном аудиосигнале. Краевые эффекты проявляются в точках сопряжения блоков отсчетов, полученных с помощью обратных ортогональных преобразований. Для снижения уровня краевых эффектов применяется модифицированное дискретное косинусное преобразование (МДКП). МДКП основано на 50%-ом перекрытии блоков отсчетов входного аудиосигнала при выполнении спектрального анализа.

Часто спектральный анализ и последующий синтез аудиосигналов выполняется с помощью гибридного банка фильтров, который использует как линейную фильтрацию, так и ортогональные преобразования. Основным преимуществом такого подхода является возможность выполнения спектрального анализа с большей разрешающей способностью, что позволяет полнее учесть особенности слуховой системы человека. Высокая разрешающая способность спектрального анализа аудиосигналов может быть получена с помощью гребенки фильтров, выходные сигналы которых подвергаются дальнейшему анализу с помощью МДКП. Такой подход используется при сжатии аудиосигналов в соответствии со стандартами, предложенными экспертной группой MPEG (Moving Picture Expert Group).

Одним из отрицательных эффектов, который проявляется при использовании рассмотренных подходов к сжатию аудиосигналов, является предварительное эхо. Предварительное эхо прослушивается, когда в пределах одного сегмента аудиосигнала, подвергающегося ортогональному преобразованию, имеется участок молчания и участок со значительным уровнем звука (рис. 4.17,а). Наличие участка с высоким уровнем звука приводит к

росту шага квантования и, соответственно, росту ошибки квантования. При выполнении обратного ортогонального преобразования полученная ошибка квантования распространяет свое действие на весь сегмент (рис. 4.17,6 N=1024). Предварительное эхо может быть частично подавлено за счет явления временного маскирования, если продолжительность эхо невелика. Продолжительность эхо можно сократить, если выполнять ортогональные преобразования коротких сегментов аудиосигналов (рис.4.17,в N=256). Однако преобразование аудиосигналов на коротких сегментах увеличивает общее число анализируемых сегментов и, следовательно, приво­дит к росту скорости передачи. Решение проблемы состоит в динамическом изменении (переключении) длины сегментов. Типовое значение длины сегмента лежит в диапазоне от N=64 до N=1024.Указанное переключение возможно на основе анализа стационарности участка аудиосигнала. Короткие сегменты используются на нестационарных участках аудиосигнала. На стационарных участках выполняется переключение на длинные сегменты.

На рис. 4.18 изображена упрощенная схема перцептивного кодера аудиосигналов, основанного на применении ДКП. В рассматриваемой схеме входной сигнал разбивается на сегменты, длиной 512 отсчетов. Каждый сегмент отображается в частотную область с помощью ДКП. Затем выполняется масштабирование и адаптивное квантование коэффициентов ДКП на основе психоакустического анализа ДКП-спектра. Спектральные составляющие, уровни которых ниже порога маскирования (рис.414), исключаются из дальнейших преобразований. Квантование спектральных составляющих, с уровнем выше порога маскирования, осуществляется в соответствии со значением ОСМ. Чем больше значение ОСМ в соответствующей полосе, тем большее число двоичных разрядов отводится для представления спектральных составляющих данной частотной полосы: Эта операция выполняется в блоке динамического назначения разрядности. Кодированные значения спектральных составляющих и информация психоакустического анализа мультиплексируются и передаются в канал связи или запоминаются в устройстве хранения информации. В декодере выполняются обратные опе­рации.

4.8.3 Сжатие аудиосигналов в соответствии со стандартами ISO/MPEG '

Экспертная группа MPEG совместно с международной организацией стандартов ISO разработала серию стандартов для сжатия звука и изображений, обозначаемых MPEG-1, MPEG-2, MPEG-4,

Стандарт MPEG-1 поддерживает передачу цифрового видео со скоростью 1,2 Мбит/с (с качеством аналогового видеомагнитофона) и цифрового звука со скоростями 32-192 Кбит/с (моно режим) и 64-384 Кбит/с (стерео режим с качеством компакт-диска).

Стандарт MPEG-2 (IS 13818) в своей видео части поддерживает передачу высококачественного видео (включая телевидение высокой четкости) со скоростью от 3 до 15 Мбит/с, а в звуковой части - низкоскоростное кодирование многоканального звука со скоростью 64 Кбит/с и ниже. MPEG-2 поддерживает от 2-х до 5-ти широкополосных звуковых каналов.

Стандарт MPEG-4 предназначен для применения в области мультимедиа систем. MPEG-4 предусматривает широкий набор средств, позволяющих выполнять передачу звуковых и речевых сигналов с низкими скоростями от 2 до 64 Кбит/с. В звуковую часть стандарта включены следующие возможности: параметрическое низкоскоростное кодирование речи (2-10 Кбит/с); среднескоростное кодирование речи на основе схем анализ-синтез (6-16 Кбит/с); кодирование аудио и речевых сигналов с использованием гибридных банков фильтров и ортогональных преобразований (ниже 64 Кбит/с). Стандарт MPEG-4 обеспечивает высокую степень сжатия и охватывает широкий диапазон звуковых сигналов от HF стерео звука до кодирования речи, включая синтез речи. На основе этого стандарта обеспечивается сопряжение звуковых каналов различного качества. Стандарт предусматри­вает дополнительные функции, такие как временное масштабирование, управление частотой основного тона, доступ к базам данных.

Стандартом MPEG-1 предусматривается сжатие аудиосигналов с помощью систем трех уровней сложности. Системы сжатия верхних уровней сложности включают возможности систем нижних уровней. Структурная схема системы сжатия аудиосигналов, соответствующая первому и второму уровню сложности, показана на рис. 4.19. Система может функционировать с частотами дискретизации 48 кГц, 44,1 кГц, 32 кГц.

Входной аудиосигнал с помощью банка анализирующих фильтров разделяется на 32 полосовых сигнала. Фильтры обладают полифазной структурой [3] и их импульсная характеристика задается 512 коэффициентами. При частоте дискретизации 48 кГц полоса пропускания каждого фильтра равна 24000/32=750 Гц. Спектральный анализ, выполняемый с помощью такого набора фильтров, характеризуется недостаточным частотным разрешением а. области нижних частот, гак как полоса пропускания одного фильтра перекрывает несколько критических частотных полос (табл.4.1). Выходные сигналы фильтров децимируклся с коэффициентом 32, т.е. частота дискретизации понижается до критического значения, равного 1500 Гц. Импульсная характеристика h^[n] фильтра, пропускающего сигналы k -ой частотной полосы, получается путем умножения импульсной характеристики h[n] ФНЧ, выступающего в качестве фильтра-прототипа, на модулирующую функцию, которая обеспечивает требуемое смещение полосы пропускания ФНЧ:

где М=32; ^=1,2,...,32; n=l,2,...,512.

АЧХ низкочастотного фильтра прототипа характеризуется ослаблением 3 дБ в полосе пропускания и 96 дБ в полосе подавления. Переходные полосы фильтров существенно перекрываются. В результате этого возможно появление шумов наложения [33], которые исключаются соответствую­щим выбором фазового сдвига <p[k].

Выходные сигналы фильтров разбиваются на блоки по 12 отсчетов (уровень I) и 36 отсчетов (уровень II) в каждой полосе. Над каждым блоком выполняются операции нормализации и квантования. Нормализация выполняется таким образом, чтобы максимальный отсчет в каждом блоке имел единичное значение. В пределах блока сохраняется одно и то же распределение уровней квантования по частотным полосам.

Для целей психоакустического анализа и определения суммарного порога маскирования используется БПФ на 512 точек (уровень I) и на 1024 точки (уровень II). В каждом из указанных случаев входной сигнал взвешивается с помощью окна Ханна. В блоке психоакустического анализа для каждой маскирующей составляющей вычисляется индивидуальный порог маскирования. Суммарный порог маскирования получается путем сложения индивидуальных порогов и абсолютного порога слышимости. Отношение сигнал-маска определяется как разность между уровнем маскирующей составляющей в полосе и минимальным значением суммарного порога маскирования в этой же полосе.

Число уровней квантования для каждой полосы определяется в блоке динамического распределения разрядности, в котором используется итерационный алгоритм минимизирующий отношение шум-маска в каждой частотной полосе. Это обеспечивает получение минимально допустимой разрядности представления полосовых сигналов.

В кодере, относящемся к уровню I, квантованию подвергается блок из 12 отсчетов в каждой частотной полосе. При частоте дискретизации 48 кГц это соответствует 8мс аудиосигнала (384 отсчета). В кодере, относящемся к уровню II, квантованию подвергаются одновременно три блока по 12 отсчетов (т.е. 36 отсчетов), что соответствует 24 мс звукового сигнала. При этом для всех трех блоков используется одно и тоже распределение разрядности квантования по частотным полосам. Однако коэффициенты нормализации для каждого из блоков вычисляются индивидуально. В зависимости от изменчивости коэффициентов нормализации в канал могут передаваться 1,2 или 3 значения коэффициентов нормализации. Квантованные значения указанных блоков совместно с информацией о распределении разрядов по полосам передаются в цифровой канал. Когда уровни спектральных составляющих в частотной полосе оказываются меньше суммарного порога маскирования в данной полосе, отсчеты соответствующего полосового сигнала не передаются, т.е. для квантования сигнала данной полосы выделяется 0 бит.

В декодере выполняется восстановление выходных сигналов полосно-пропускающих фильтров и синтез исходного аудиосигнала. Для этого сначала выполняется приведение квантованных значений отсчетов в каждой полосе к исходной разрядности и их масштабирование. Выполняется это на основе имеющейся информации о распределении разрядности квантования по частотным полосам. Если в какой -либо частотной полосе разряды квантования не распределялись, то соответствующие отсчеты считаются нулевыми. Когда кодер и декодер реализуются в виде одного устройства, банк фильтров может быть общим для кодера и декодера.

В кодере и декодере звуковых сигналов, относящемся к уровню III, с целью повышения разрешающей способности по частоте и более полного учета особенностей слухового восприятия человека применяется гибридный банк фильтров. В этом случае предусматривается выполнение МДКП и адаптивное переключение длины анализируемых сегментов аудиосигнала для подавления предварительного эхо.

Высокое частотное разрешение достигается выполнением дополнительного спектрального анализа выходных сигналов полосовых фильтров. Такой анализ выполняется с помощью 6-ти или 18-ти точечного МДКП. Так как МДКП использует 50%-ое перекрытие анализируемых сегментов, то максимальное число спектральных компонент по всем полосам равно 32х18=576. Следовательно, разрешающая способность спектрального ана­лиза будет равна 24000/576=41,67 Гц. Короткое МДКП (6 точек) применяется в случае необходимости подавления предварительного эхо.

Результаты МДКП подвергаются неравномерному квантованию и кодированию Хаффмана. Чтобы шумы квантования были ниже суммарного порога маскирования, распределение разрядности по полосам выполняется на основе итерационной схемы анализ-синтез.

Рассмотренная схема сжатия звуковых сигналов позволяет снизить скорость передачи аудиосигнала до 14 Кбит/с.


Поделиться с друзьями:

Двойное оплодотворение у цветковых растений: Оплодотворение - это процесс слияния мужской и женской половых клеток с образованием зиготы...

Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...

Историки об Елизавете Петровне: Елизавета попала между двумя встречными культурными течениями, воспитывалась среди новых европейских веяний и преданий...

Состав сооружений: решетки и песколовки: Решетки – это первое устройство в схеме очистных сооружений. Они представляют...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.015 с.