Архитектура электронного правительства: Единая архитектура – это методологический подход при создании системы управления государства, который строится...
Таксономические единицы (категории) растений: Каждая система классификации состоит из определённых соподчиненных друг другу...
Топ:
Выпускная квалификационная работа: Основная часть ВКР, как правило, состоит из двух-трех глав, каждая из которых, в свою очередь...
Особенности труда и отдыха в условиях низких температур: К работам при низких температурах на открытом воздухе и в не отапливаемых помещениях допускаются лица не моложе 18 лет, прошедшие...
Характеристика АТП и сварочно-жестяницкого участка: Транспорт в настоящее время является одной из важнейших отраслей народного...
Интересное:
Принципы управления денежными потоками: одним из методов контроля за состоянием денежной наличности является...
Что нужно делать при лейкемии: Прежде всего, необходимо выяснить, не страдаете ли вы каким-либо душевным недугом...
Подходы к решению темы фильма: Существует три основных типа исторического фильма, имеющих между собой много общего...
Дисциплины:
2019-08-04 | 102 |
5.00
из
|
Заказать работу |
|
|
Разработанные за последние 20 лет методы кодирования обеспечивают хорошее качество (разборчивость, натуральность звучания, повышенную возможность опознавания говорящего) при передаче речи в цифровой форме по узкополосным каналам связи. На практике широкое применение нашли кодеры с линейным предсказанием при многоимпульсном возбуждении и при возбуждении от кода.
Наиболее совершенным алгоритмом (с точки зрения качества) является алгоритм с векторным квантованием.
Рисунок 3.1 – Структурная схема кодирования
Речевой сигнал S разделяется на кадры длительностью в 20 мс. В каждом кадре с использованием алгоритма линейного предсказания (LPC) определяются параметры синтезирующего фильтра 1/А(z), после чего методом анализа через синтез находятся параметры сигнала возбуждения, минимизирующие взвешенный сигнал ошибки. Сигнал возбуждения представляется наборами индексов векторов извлекаемых из стохастической и адаптивной кодовых книг а также наборами соответствующих им коэффициентов усиления. При кодировании сигнала возбуждения кадр разбивается на 4 подкадра по 5 миллисекунд. В каждом подкадре кодируются и передаются индексы (9 бит на индекс), коэффициенты усиления. В целом кадр кодируется 144 битами из которых 40 бит отводятся на кодирование коэффициентов усиления с использованием скалярного квантования.
При использовании векторного квантования для каждого из двух коэффициентов усиления производилось объединение четырех значений, полученных для подкадров одного кадра, в один четырехмерный вектор. В результате этого для каждого кадра формировались два вектора коэффициентов усиления для квантования которых использовались различные кодовые книги. Формирование кодовых книг выполнялось на основе обучающей выборки размером 16 000 векторов, с использованием которой для каждого из векторов были построены по две кодовые книги размером 64 и 128 эталонных векторов (длина кодового слова 6 и 7 бит соответственно). При таких размерах кодовых книг количество бит, отводимых на кодирование коэффициентов усиления, сокращается соответственно на 28 и 26 бит на кадр.
|
Обучающая выборка формировалась в результате обработки речевого материала от двенадцати дикторов (5 женщин и 7 мужчин) общей продолжительностью 8 минут. Для построения кодовых книг использовался алгоритм К средних с начальными условиями, полученными использованием Диагностической Меры Приемлемости (DAM) путем прослушивания 12 фонетически сбалансированных 6-слоговых предложений, произносимых дикторами, не участвовавшими в формировании обучающей выборки. Качестов звучания оценивалось бригадой из 10 слушателей. По результатам оценки вычислялась средняя оценка мнений (процент предпочтений).
Таким образом, использование векторного квантования коэффициента усиления позволяет без ущерба качества звучания понизить скорость до 2,4 Кбит/сек.
Разработка программы на MATLAB
Входные файлы должны быть 16-разрядные.WAV файлы, с частотой дискретизации в 8 кГц. Программное обеспечение большинства звуковых плат поддерживает этот формат файла.
Описание некоторых функций.
1) Функция Speech_process - моделирование вокодера, включая анализ, передачу, синтез, и графический интерфейс пользователя (GUI).
2) Функция COR - вычисление автокорреляции задержки.
Вычисление коэффициентов автокорреляции последовательности данных:
idim
C(i) = SUM rar(k) * rar(k-i) , где i = 0,..., n
k=i+1
c0 = C(0)
3) Функция LSPDECOD - независимый LSP декодер;
4) Функция DECODHAM - расшифровывает кодируемое ключевое слово в получателе. Исправляет одиночные ошибки или обнаруживает многократные ошибки (проверка по чету).
5) Функция VDECODE - создает стохастический вектор возбуждения по индексу кодовой книги. Формирует LPC возбуждение.
6) Функция WAVHDR - создает заголовок файла для 16-разрядного, 8 кГц, моно 7) Функция ZEROFILT - нерекурсивный фильтр. Фильтр осуществлен в прямой реализации.
N -i
H (z) = SUM b (i) z
I=0
X (t) - > --- (z0) ----- b0 > ------ + ----- > y (t)
| |
Z1 ------ b1 > ------ +
| |
Z2 ------ b2 > ------ +
| |
::
| |
ZN ------ bN > ------ +
|
|
Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...
Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...
Типы сооружений для обработки осадков: Септиками называются сооружения, в которых одновременно происходят осветление сточной жидкости...
Особенности сооружения опор в сложных условиях: Сооружение ВЛ в районах с суровыми климатическими и тяжелыми геологическими условиями...
© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!