B. Результаты распознавания фонем в TIMIT — КиберПедия 

Организация стока поверхностных вод: Наибольшее количество влаги на земном шаре испаряется с поверхности морей и океанов (88‰)...

Состав сооружений: решетки и песколовки: Решетки – это первое устройство в схеме очистных сооружений. Они представляют...

B. Результаты распознавания фонем в TIMIT

2023-02-07 30
B. Результаты распознавания фонем в TIMIT 0.00 из 5.00 0 оценок
Заказать работу

Обучающая выборка составляла 462 дикторов. Для настройки всех мета-параметров, включая график обучения и несколько курсов обучения, был использован отдельный набор из 50 дикторов. Тестовая выборка составляла 24 тестовых данных, не входящих в обучающую выборку. В дополнение к логарифмическим MFSC характеристикам, добавили log-energy каждого кадра. Логарифмическая энергия была нормализована на каждое высказывание, чтобы иметь нулевое среднее и единичную дисперсию по всему набору обучающих данных. Энергетическая функция обрабатывается в CNN, как описано в разделе III.
Для обучения нейронной сети использовался алгоритм имитации отжига, при котором скорость обучения неуклонно снижается с течением итераций, и стратегии ранней остановки, при которых используется отложенный набор развития, чтобы определить, когда начинать переобучение.
Было проведено много экспериментов на CNNs с использованием как полного распределения веса (FWS), так и ограниченного распределения веса (LWS). В этих экспериментах использовался один слой свертки, один слой объединения и два полностью соединенных скрытых слоя сверху. Полностью соединенные слои имели по 1000 единиц в каждом. Параметры свертки и объединения были следующими: размер объединения 6, размер сдвига 2, размер фильтра 8, 150 карт признаков для FWS и 80 карт признаков на полосу частот для LWS. Во всех экспериментах фиксировался сид генерации случайных чисел как для инициализации веса, так и для рандомизации порядка обучающих данных.

1) Эффекты от изменения параметров CNN:

В этом разделе анализируются эффекты изменения различных параметров CNN. Графики показывают результаты этих экспериментов как на основном тестовом наборе (Test), так и на наборе обучающей выборки (Dev). Из них видно, что как размер пула, так и количество карт объектов оказывают наиболее значительное влияние на конечную производительность ASR. На графиках показана зависимость процента ошибок PER (Phone Error Rate) от изменения параметра. График 1 показывает, что все конфигурации (т. е. в среднем) обеспечивают лучшую производительность при размере пула 6. LWS обеспечивает лучшую производительность при больших размерах пула.

Графики 1 и 2 показывают, что конфигурации с перекрытием окон объединения не дают четкого прироста производительности, а при использовании одного и того же размера объединения и сдвига обеспечивает одинаковую производительность при одновременном снижении сложности модели.

1 Размер фильтра 8, 150 карт характеристик FWS и 80 карт характеристик в частотной полосе LWS, размер сдвига LWS и FWS равен 2, LWS(SS) и FWS(SS) равен размеру объединения. 2 Размер пула 6, размер фильтра 8, 150 карт объектов FWS и 80 карт объектов на частотную полосу LWS
3 Размер пула 6, размер сдвига 2, размер фильтра 8. 4 Размер пула 6, размер сдвига 2, 150 карт объектов FWS и 80 карт объектов в полосе частот LWS.

 

График 3 показывает, что большое количество карт объектов обычно приводит к повышению производительности, особенно при использовании FWS. Он также показывает, что LWS достигают лучшей производительности при меньшем количестве карт объектов, чем FWS. Это указывает на то, что схема LWS является более эффективной с точки зрения количества скрытых элементов.

2) Влияние энергетических характеристик:

  No Energy Energy
LWS 20.64% 20.39%
FWS 21.19% 20.55%

 

В таблице показаны преимущества использования энергетических характеристик, особенно для FWS.

Размер объединения 6, размер сдвига 2, размер фильтра 8, 150 карт объектов для FWS и 80 карт объектов на частотную полосу для LWS.

 

В то время как энергетические характеристики могут быть легко получены из других характеристик MFSC, добавление их в качестве отдельных входов к фильтрам свертки приводит к большей эффективности, поскольку дает возможность сравнить локальные частотные полосы, обрабатываемые фильтром, с объединённым спектром.

3) Влияние функций объединения:

Average Max
Dev Set 19.63% 18.56%
Test Set 21.6% 20.39%

 

Из таблицы видно, что функция максимального объединения работает лучше, чем функция усреднения в схеме LWS

 

4) Общая производительность:

Здесь сравнивается общая производительность различных конфигураций CNN с базовой системой DNN для одной и той же задачи TIMIT. Все результаты сравнения приведены в таблице вместе с количеством весовых параметров и вычислений в каждой модели.

 

Средние значения PERs были получены в течение трех пробегов с различными сидами случайных чисел. Первая строка показывает среднее значение PER, полученное из DNN, который имел три скрытых слоя. Его первый скрытый слой имел 2000 единиц, чтобы соответствовать увеличенному числу единиц в CNN. Два других скрытых слоя имели по 1000 единиц в каждом. В следующей строке представлена аналогичная DNN с 5 слоями.

Параметры CNNs (3, 4) были выбраны исходя из производительности, полученной на наборе Dev в предыдущих разделах. У обоих был размер фильтра 8, размер пула 6 и размер сдвига 2. Количество карт объектов составляло 150 у LWS и 360 у FWS. Результаты, приведенные в таблице, показывают, что производительность CNN намного лучше, чем у соответствующего DNN, и что LWS был немного лучше, чем FWS. Хотя число элементов в слое свертки LWS было немного больше, чем у FWS, LWS-CNN дает гораздо меньший размер модели, поскольку LWS приводит к гораздо меньшему числу весов в верхних, полносвяхных слоях. Строка 5 показывает эффективность использования двух пар свертки и объединения слоев с FWS в дополнение к двум полностью связанным скрытым слоям сверху.

Строка 6 показывает производительность для той же модели, когда второй слой свертки LWS. Параметры двух этих конфигураций (5, 6) были грубо настроены на обучающей выборке (Def) и дали ошибки 20,23% и 20,36%, что даёт лишь незначительные различия в изменении одного слоя свертки. С другой стороны, использование двух слоев свертки имеет тенденцию приводить к меньшему числу параметров, как показано в четвертом столбце.


Поделиться с друзьями:

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...

Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...

История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...

Историки об Елизавете Петровне: Елизавета попала между двумя встречными культурными течениями, воспитывалась среди новых европейских веяний и преданий...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.009 с.