II. Глубокие нейронные сети (DNN) — КиберПедия 

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...

Наброски и зарисовки растений, плодов, цветов: Освоить конструктивное построение структуры дерева через зарисовки отдельных деревьев, группы деревьев...

II. Глубокие нейронные сети (DNN)

2023-02-07 34
II. Глубокие нейронные сети (DNN) 0.00 из 5.00 0 оценок
Заказать работу

I. Введение

Автоматическое распознавание речи (ASR) является сложной задачей из-за большого количества различных характеристик сигнала. Cкрытые марковские модели (HMM) были очень успешны в моделировании поведения речевых сигналов с использованием последовательности состояний, которые связаны с определенным распределением вероятностей наблюдений. Гауссовские смешанные модели (GMM) до самого последнего времени считались наиболее мощной моделью для оценки вероятностного распределения речевых сигналов, связанных с каждым из этих состояний HMM.

С недавнего времени, модели HMM, использующие искусственные нейронные сети (ANNs) вместо GMMs (ANN-HMM гибриды), стали привлекать большой исследовательский интерес. Успешность данного подхода обусловлена использованием методов „глубокого“ обучения, хотя даже без глубокого обучения ANNs могут классифицировать данные в пространстве признаков без каких-либо предположений о структуре данных. GMM, напротив, предполагают, что каждая выборка данных генерируется одним скрытым экспертом (гауссовым) и взвешенная сумма этих гауссовых компонентов используется для моделирования всего пространства признаков.

ANNs используются для распознавания речи уже более двух-трёх десятилетий. Ранние испытания проводились на статических и ограниченных речевых данных, однако их первое успешное применение к непрерывному распознаванию речи было сделано благодаря тому, что нейросети почти точно повторяют функции GMMs, т. е. используются в качестве источников задних вероятности состояний HMM, учитывая фиксированное число фреймов признаков.

Благодаря росту вычислительных мощностей стало возможным увеличить число скрытых слоёв ANN и обучить модель на большом объёме речевых данных. Использование гибридов ANN-HMM началась с применения ограниченных машин Больцмана (RBMs), которые не много могут учитывать последующий контекст. ANNs могут легко использовать высоко коррелированные входные характеристики, находящиеся в гораздо более широких временных контекстах акустических кадров (обычно 9-15 кадров). Также в настоящее время часто используют логарифмические mel-частотные кепстральные коэффициенты (MFCCs), которые были популярны у GMMs. Все эти факторы оказали значительное влияние на производительность.

В качестве архитектуры ANN будем использовать модифицированную CNN (свёрточную нейронную сеть) с использованием ограниченных весовых объединений (limited weight sharing), что в некоторой степени ухудшает их способность укладываться бесконечно глубоко.

CNNs уже использовались в акустическом моделировании ранее. Свертка применялась над окнами акустических кадров, перекрывающимися во времени, чтобы изучить более стабильные акустические характеристики. Касательно моделирования временных вариаций, HMMs справляются с этой задачей относительно хорошо; сверточные методы, а точнее те, которые используют нейронные сети, наделенные weight sharing, вероятно, являются излишними. HMM используются в этой модели для обработки вариаций вдоль оси времени, но затем применяется свертка на частотной оси спектрограммы. Это наделяет изученные акустические характеристики инвариантностью к небольшим сдвигам частоты, которые могут возникать из-за различных длин голосовых путей, что привело к улучшению, по сравнению с DNN (глубокой нейронной сетью) аналогичной сложности, в распознавании фонем, не зависимом от диктора TIMIT, с относительным снижением частоты фонемных ошибок (PER) примерно на 8,5%. Изучение инвариантных представлений по частоте (или времени) для стандартных DNN является более сложной задачей.

Глубокие архитектуры имеют значительные достоинства. Они позволяют модели обрабатывать множество типов изменчивости речевого сигнала. Как показывают исследования, DNN действительно более инвариантны к малым возмущениям входного сигнала, и это приводит к лучшему обобщению модели и улучшению производительности распознавания, особенно в условиях присутствия искажений в речи говорящего или в среде. Так же для большей производительности могут использоваться знания об эмипрической области. Нормализация длины голосового тракта (VTLN) - хороший пример этого. VTLN преобразует частотную ось на основе одного изучаемого коэффициента искажения для нормализации искажений говорящего в речевом сигнале, что в свою очередь улучшает производительность гибридных моделей DNN-HMM при применении к входным признакам.

 

И их применение в ASR

Сверточная нейронная сеть (CNN) — вариант стандартной нейронной сети, в которой используется специальная сетевая структура, состоящая из чередующихся так называемых слоев свертки и объединения. (convolution ply and pooling ply.)

D.Обучение CNN

Для обучения будем использовать модифицированный алгоритм обратного распространения ошибки. Для этого преобразуем формулу  в подходящий вид. Операцию свертки можно представить в виде простого умножения матрицы путем введения большой весовой матрицы которая формируется путем тиражирования базовой весовой матрицы W.

 

 

Она имеет вид:

где базовая матрица W строится из всех локальных весовых матриц  следующим образом:

 

Так же, входные и сверточные карты объектов также векторизуются в виде векторов строк  и . Одна вектор-строка создается из всех входных карт  следующим образом: где — вектор-строка, содержащая значения m-ой полосы частот вдоль всех I карт объектов, M —количество частотных полос во входном слое.

Таким образом, формулу для можно переписать в виде Эта формула имеет тот же вид, что и для полносвязных сетей, так что формула для обновления весовой матрицы может быть вычислено так же:  где — вектор ошибок как и раньше. Элементы матрицы W вычисляются как:  где I и J - количество карт объектов во входном слое и слое свертки соответственно.

Аналогично, для смещений можно добавить одну строку в матрицу  для хранения значений смещения и добавления единичного элемента в вектор

Поскольку объединяющий слой не имеет весов, никакого обучения ему не нужно. Однако сигналы об ошибках должны передаваться обратно в нижние слои через функцию объединения. В случае максимального объединения сигнал ошибки передается обратно только самому активному (самому большому оп значению) элементу из каждой группы объединений. Cигнал ошибки, достигающий нижнего слоя свертки, может быть вычислен как: где — дельта-функция, равная 1, если x = 0 и 0 в противном случае, а -индекс элемента с максимальным значением среди элементов объединеннения. Он определяется как:

E. Предобучение слоёв CNN

Предварительная подготовка на основе RBM улучшает производительность DNN, особенно на маленьких обучающих выборках. Для сверточной структуры предложена сверточная RBM (CRBM). Подобно RBMs, обучение CRBM направлено на максимизацию функции правдоподобия полных обучающих данных. В CRBMs активации сверточного слоя являются стохастическими. CRBMs определяют мультиномиальное распределение по каждому пулу скрытых единиц в слое свертки.

Следовательно, не более одной единицы в каждом наборе объединений может быть активным. Это требует либо отсутствия перекрытия между объединенными блоками (т. е. G = s) или прикрепление различных блоков свертки к каждому блоку объединения, как в ограниченном распределении весов, описанном ниже в разделе IV.

G. Общая архитектура CNN

Строительный блок CNN содержит пару скрытых слоев: слой свертки и слой объединения. Входные данные содержат ряд локализованных объектов, организованных в виде нескольких карт объектов. Размер (разрешение) карт объектов становится меньше по мере применения большего количества операций свертки и объединения. Обычно один или несколько полностью соединенных скрытых слоев добавляются поверх конечного слоя CNN, чтобы объединить объекты во всех частотных диапазонах перед подачей на выходной слой.

В этой статье рассматривается гибридная структура ANN-HMM, где используется выходной слой softmax поверх самого верхнего слоя CNN для вычисления задних вероятностей для всех состояний HMM. Эти апостериоры используются для оценки вероятности всех состояний HMM в кадре путем деления на предшествующие вероятности состояний. Наконец, вероятностные значения всех состояний HMM посылаются в декодер Витерби (Viterbi decoder) для распознавания непрерывного потока речевых единиц.

B. Предобучение LWS-CNN

Модифицируем модель CRBM для предварительной настройки CNN с LWS, Для обучения CRBM нам необходимо определить условные вероятности состояний скрытых элементов с учетом видимых и наоборот. Условная вероятность активации для скрытого элемента, , представляющего состояние m-й полосы частот, j-й карты признаков из k-ой секции, заданного через v— входной сигнал CRBM, определяется как следующая функция softmax:

где — взвешенная сумма входного сигнала, достигающего элемента  . Она определяется как:

Условное распределение вероятностей видимого элемента, , n-ой полосы частот, i-ой карты объектов, учитывая скрытые состояния, может быть вычислено следующим гауссовским распределением: 

где выражение посередине — взвешенная сумма сигнала, поступающего от скрытых блоков, соединённых с видимыми элементами модели,  представляет эти связи как множество индексов полос свертки и секций, которые получают на вход от видимого блока . — вес соединяющий n-ую полосу, i-ую входную карту объектов с m-ой полосой j-ой карт объектов k-ой секции свертки, —  функция отображения от индексов подключенных узлов до соответствующего индекса фильтрующего элемента, а — дисперсия Гауссова распределения (фиксированный параметр модели).

Основываясь на двух вышеприведенных условных вероятностях, все веса связи вышеупомянутого CRBM могут быть итеративно оценены с помощью регулярного алгоритма контрастивной дивергенции (CD). Веса обученных CRBMs могут быть использованы в качестве хороших начальных значений для слоя свертки в схеме LWS. После того, как первые веса слоев свертки изучены, они используются для вычисления выходных данных слоев свертки и объединения в пул. Выходы объединяющего слоя используются в качестве входных данных для непрерывного переобучения следующего слоя, как это делается в обучении DNN

 

V. Эксперименты

Эксперименты этого раздела были проведены на двух задачах распознавания речи для оценки эффективности CNNs в ASR: маломасштабное распознавание фонем в TIMIT и задача голосового поиска с большим словарным запасом (VS). Работа, описанная в этой статье, была расширена на другие более крупные задачи распознавания речи по лексике, что еще больше подтверждает ценность этого подхода.

A. Анализ речевых данных

Метод анализа речи аналогичен в двух наборах данных. Речь анализируется с помощью окна Хэмминга длиной 25 мс с фиксированной частотой кадров 10 мс. Векторы речевых признаков генерируются с помощью анализа банка фильтров на основе преобразования Фурье, который включает в себя 40 логарифмических энергетических коэффициентов, распределенных по шкале Мела, а также их первые и вторые производные по времени. Все речевые данные были нормализованы таким образом, чтобы они имели нулевое среднее и единичную дисперсию.

 

 

VI. Выводы

В этой статье описан новый подход применения CNN к распознаванию речи, так что структура CNN непосредственно учитывает некоторые типы вариативности речи.

Показано улучшение производительности (около 6-10% относительного снижения ошибок) по сравнению со стандартными DNNs с аналогичным количеством весовых параметров. Гибридный подход CNN-HMM делегирует временную вариабельность HMM, в то время как свертка вдоль частотной оси создает инвариантность к небольшим частотным сдвигам, которые обычно происходят в реальных речевых сигналах из-за особенностей говорящих.

Кроме того, была предложено новая, схема с ограниченным распределением весов (LWS), которая может обрабатывать речевые функции лучше, чем с полным распределением весов (FWS), который является стандартом для архитектур CNN, используемых в обработке изображений.

LWS приводит к гораздо меньшему числу элементов в слое объединения, что приводит к меньшему размеру модели и меньшей вычислительной сложности, чем в схеме FWS.

Так же показано улучшение производительности в двух задачах ASR: распознавание фонем TIMIT и задача голосового поиска с большим словарным запасом, в различных настройках модели CNN. Выяснилось, что использование энергетической информации очень выгодно для CNN с точки зрения точности распознавания. Кроме того, было обнаружено, что производительность ASR чувствительна к размеру пула, но нечувствительна к перекрытию между единицами пула, что приведет к повышению эффективности хранения и вычислений.

Наконец, было обнаружено, что предварительное обучение CNN на основе сверточных RBM дает лучшую производительность в задаче с большим словарным запасом голосового поиска, но не в задаче по распознаванию фонем.

 

Ссылки

[1] Ossama Abdel-Hamid, Abdel-rahman Mohamed, Hui Jiang, Li Deng, Gerald Penn, and Dong Yu // «Convolutional neural networks for speech recognition» [2014].

I. Введение

Автоматическое распознавание речи (ASR) является сложной задачей из-за большого количества различных характеристик сигнала. Cкрытые марковские модели (HMM) были очень успешны в моделировании поведения речевых сигналов с использованием последовательности состояний, которые связаны с определенным распределением вероятностей наблюдений. Гауссовские смешанные модели (GMM) до самого последнего времени считались наиболее мощной моделью для оценки вероятностного распределения речевых сигналов, связанных с каждым из этих состояний HMM.

С недавнего времени, модели HMM, использующие искусственные нейронные сети (ANNs) вместо GMMs (ANN-HMM гибриды), стали привлекать большой исследовательский интерес. Успешность данного подхода обусловлена использованием методов „глубокого“ обучения, хотя даже без глубокого обучения ANNs могут классифицировать данные в пространстве признаков без каких-либо предположений о структуре данных. GMM, напротив, предполагают, что каждая выборка данных генерируется одним скрытым экспертом (гауссовым) и взвешенная сумма этих гауссовых компонентов используется для моделирования всего пространства признаков.

ANNs используются для распознавания речи уже более двух-трёх десятилетий. Ранние испытания проводились на статических и ограниченных речевых данных, однако их первое успешное применение к непрерывному распознаванию речи было сделано благодаря тому, что нейросети почти точно повторяют функции GMMs, т. е. используются в качестве источников задних вероятности состояний HMM, учитывая фиксированное число фреймов признаков.

Благодаря росту вычислительных мощностей стало возможным увеличить число скрытых слоёв ANN и обучить модель на большом объёме речевых данных. Использование гибридов ANN-HMM началась с применения ограниченных машин Больцмана (RBMs), которые не много могут учитывать последующий контекст. ANNs могут легко использовать высоко коррелированные входные характеристики, находящиеся в гораздо более широких временных контекстах акустических кадров (обычно 9-15 кадров). Также в настоящее время часто используют логарифмические mel-частотные кепстральные коэффициенты (MFCCs), которые были популярны у GMMs. Все эти факторы оказали значительное влияние на производительность.

В качестве архитектуры ANN будем использовать модифицированную CNN (свёрточную нейронную сеть) с использованием ограниченных весовых объединений (limited weight sharing), что в некоторой степени ухудшает их способность укладываться бесконечно глубоко.

CNNs уже использовались в акустическом моделировании ранее. Свертка применялась над окнами акустических кадров, перекрывающимися во времени, чтобы изучить более стабильные акустические характеристики. Касательно моделирования временных вариаций, HMMs справляются с этой задачей относительно хорошо; сверточные методы, а точнее те, которые используют нейронные сети, наделенные weight sharing, вероятно, являются излишними. HMM используются в этой модели для обработки вариаций вдоль оси времени, но затем применяется свертка на частотной оси спектрограммы. Это наделяет изученные акустические характеристики инвариантностью к небольшим сдвигам частоты, которые могут возникать из-за различных длин голосовых путей, что привело к улучшению, по сравнению с DNN (глубокой нейронной сетью) аналогичной сложности, в распознавании фонем, не зависимом от диктора TIMIT, с относительным снижением частоты фонемных ошибок (PER) примерно на 8,5%. Изучение инвариантных представлений по частоте (или времени) для стандартных DNN является более сложной задачей.

Глубокие архитектуры имеют значительные достоинства. Они позволяют модели обрабатывать множество типов изменчивости речевого сигнала. Как показывают исследования, DNN действительно более инвариантны к малым возмущениям входного сигнала, и это приводит к лучшему обобщению модели и улучшению производительности распознавания, особенно в условиях присутствия искажений в речи говорящего или в среде. Так же для большей производительности могут использоваться знания об эмипрической области. Нормализация длины голосового тракта (VTLN) - хороший пример этого. VTLN преобразует частотную ось на основе одного изучаемого коэффициента искажения для нормализации искажений говорящего в речевом сигнале, что в свою очередь улучшает производительность гибридных моделей DNN-HMM при применении к входным признакам.

 

II. Глубокие нейронные сети (DNN)

Глубокие нейронные сети относится к нейронным сетям прямого распространения с более чем одним скрытым слоем. Слои состоят из нейронов, каждый из которых зависит от значений всех нейронов предыдущего слоя. Правило зависимости слоёв:  где значение входа i-го нейрона на l-ом слое, i-й вектор-столбец матрицы весовых коэффициентов, вектор-строка значений входа на предыдущем слое, причём  на всех слоях, а сигмоидальная функция активации.

В матричной форме это записывается так: где матрица весовых коэффициентов l-ого слоя.

В гибридной модели DNN-HMM DNN заменяет GMMs для вычисления вероятностей наблюдения состояния HMM. Выходной слой DNN вычисляет апостериорные вероятности состояний, которые могут быть вычислены с помощью выходного слоя softmax:

На этапе обучения сначала выполняется принудительное выравнивание, чтобы создать метку опорного состояния для каждого кадра. Эти метки используются в контролируемом обучении для минимизации функции кросс-энтропии: которая направленна на минимизацию расхождения между эталонном  и прогнозом softmax

Производная функции Q по каждой весовой матрице W вычисляетя на основе алгоритма обратного распространения ошибок. Каждое обновление весовой матрицы может быть вычислено как где ε — коэффициент скорости обучения, а — вектор ошибок на l-ом слое. Вектора ошибок вычисляется в обратном порядке по следующим правилам:

Для более эффективного обучения используют алгоритмы предобучения (preraining algorithm). Один из популярных методов использует ограниченную машину Больцмана (RBM). RBM - это генеративная модель, которая моделирует распределение вероятностей данных. После обучения модели RBM все её веса могут быть использованы в качестве хорошей инициализации для одного слоя DNN. Скрытые активации обученного слоя DNN, отдаются на вход другой RBM, которая будет инициализировать следующий слой сети (и так для каждого слоя).


Поделиться с друзьями:

Автоматическое растормаживание колес: Тормозные устройства колес предназначены для уменьше­ния длины пробега и улучшения маневрирования ВС при...

Биохимия спиртового брожения: Основу технологии получения пива составляет спиртовое брожение, - при котором сахар превращается...

История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...

Историки об Елизавете Петровне: Елизавета попала между двумя встречными культурными течениями, воспитывалась среди новых европейских веяний и преданий...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.087 с.