Анализ градиента для нейронных сетей с вейвлетразложением целевого вектора

К.А. Астапов

Анализ градиента для нейронных сетей с вейвлет-разложением целевого вектора

Аннотация

К.А. Астапов

В данной статье предлагается анализ градиента для некоторых случаев нейронных сетей с вейвлет и вейвлет-подобным разложением целевого вектора - нового типа нейронной сети, специализированного на распознавании речи и преобразовании сигнала, и позволяющего увеличить скорость и качество обучения по сравнению со стандартным перцептроном. Посредством этого анализа показывается, что в достаточно широких рамках нейронные сети с вейвлет-разложением целевого вектора эффективнее стандартного многослойного перцептрона.
Ключевые слова: НСВЦ, НСВПЦ, нейронные сети с вейвлет-подобным преобразованием целевого вектора, нейронные сети с вейвлет преобразованием целевого вектора, эффективность нейронных сетей, распознавание речи № гос. регистрации 0420900096\0005

05.13.18 - Математическое моделирование, численные методы и комплексы программ

Ставропольский государственный университет, г.Ставрополь

В данной статье предлагается анализ градиента для некоторых случаев нейронных сетей с вейвлет и вейвлет-подобным разложением целевого вектора – нового типа нейронной сети, специализированного на распознавании речи и преобразовании сигнала, и позволяющего ускорить скорость и качество обучения по сравнению со стандартным перцептроном. Посредством этого анализа показывается, что в достаточно широких рамках нейронные сети с вейвлет-разложением целевого вектора эффективнее стандартного многослойного перцептрона.

Актуальность. Искусственные нейронные сети (ИНС) с вейвлет-разложением целевого вектора (НСВЦ) созданы авторами для задач распознавания речи и используются в этой области, хотя могут быть применены для широкого круга задач, подразумевающих преобразование одного сигнала (в значении – система отсчётов некоторой функции) в другой сигнал (другую систему отсчётов некоторой функции). На эффективность применения нейросетей, и особенно нейрогибридов, указывали многие авторы, например, [1,2]. Так же существует множество работ, обсуждающих и доказывающих высокую эффективность вейвлет-методов для фонемного распознавания [3], особенно следует упомянуть биологическую аналогию вейвлет-обработки звукового сигнала, описанную у Добеши[4]. Таким образом, многочисленные источники подтверждают актуальность использования нейровейвлетных гибридов для задач распознавания речи.
Нейронные сети с вейвлет-разложением целевого вектора. НСВЦ являются специализированным типом нейронных сетей, преобразующих один сигнал (под сигналом здесь и далее имеется в виду система отсчётов некоторой функции, удовлетворяющая условию теоремы Котельникова) в другой сигнал. Их практическая эффективность обусловлена тем, что рассматривая множество выходных сигналов обучающей выборки (далее будем называть их целевыми векторами) с помощью вейвлет-разложения находятся спектральные диапазоны, в которых локализован сигнал, и спектральные области, не значащие для решения, исключаются из области поиска [5]. Исключение производится с помощью проецирования значений нейросети на области спектральной локализации нейронной сети, причём сам процесс проецирования производится за счёт модуля обратного вейвлет-разложения выходного сигнала многослойного перцептрона автоматически. Следует отметить, что вейвлет-разложение целевого вектора многослойного перцептрона и обратное данному вейвлет-разложению преобразование фактических выходных значений многослойного перцептрона являются взаимозаменяемыми операциями.
Так как модуль обратного вейвлет-разложения реализован в нейронном базисе, это позволяет говорить о новой нейронной структуре на базе перцептрона - НСВЦ. Более подробно об этих ИНС можно прочитать в работах авторов ([5,6]). Здесь отметим лишь, что данная структура построена по предложенному авторами принципу локализации решения, в соответствии с которым подбирается преобразование выходных векторов выборки, которое позволяет обнаружить и использовать диапазоны локализации данных векторов (фактически это означает построение грубой модели целевых значений выборки) и выходные значения ИНС проецируются на данные диапазоны, что позволяет сузить область поиска решения, а значит, уменьшить вероятность попадания в локальные максимумы, скорость и точность обучения.
Анализ градиента нейронных сетей с вейвлет-разложением целевых значений. Пусть модуль обратной вейвлет-декомпозиции осуществляет преобразование, обратное вейвлет-преобразованию, заданному двумя зеркльно-квадратурными FIR фильтрами G и H, определяемыми коффициентами hi и gi.
В этом случае вейвлет-разложение может быть реализовано последовательным применением свёрток и .
Пусть дана обучающая выборка , i=1,2,…,imax где вектора равны , , и вейвлет преобразование F, преобразующее вектор в набор коэффициентов :, j=1,2,…,jmax, l=1,2,…,lmax, где l – номер уровня вейвлет-разложения, а j – номер коэффициента на данном уровне вейвлет-разложения. Компонент обучающей пары будем называть целевым компонентом или целевым вектором. Тогда:

Целевые компоненты пар-примеров обучающей выборки подвергаются вейвлет-разложению.
На каждом уровне l вейвлет разложения по всей выборке выбираются минимальные и максимальные значения

, (1)
. (2)

Те же самые операции (п.1 и п.2) проводятся над контрольной выборкой. Результатом являются контрольные минимальные и максимальные значения и .
Если контрольный максимум не превосходит максимум обучающей выборки более чем на заданную константу точности ,, а минимум обучающей выборки не превосходит контрольный минимум более чем ту же , , то можно говорить о корректности выбранных минимальных и максимальных значений для данной задачи.
Диапазонами частотной локализации будут области для каждого уровня l вейвлет-разложения.

Данный алгоритм дан здесь в виде инициализации ИНС, но практически возможно не инициализировать величины Il, Sl, а корректировать их в процессе предъявления обучающих примеров.
НСВЦ состоит из двух модулей – многослойного перцептрона (на месте которого, в принципе, может быть любая нейронная сеть, построенная в соответствии с парадигмой «обучение с учителем») и модуля обратной вейвлет-проекции. Значения многослойного перцептрона принципиально ограничены (обычно в диапазонах [-1;1] и [0;1]). Процесс проецирования выходных значений перцептрона, соответствующих l-му уровню масштаба вейвлет-разложения на область частотной локализации будет сдвиг и масштабирование области значений нейронной сети на область частотной локализации. Обозначим верхнее значение, принимаемое входами ИНС будет S, а нижнее I.
Проецирование значений перцептрона на диапазоны частотной локализации решения осуществляется следующим образом:
. (3)
Рассмотрим влияние масштабирования на градиент. Введём следующие обозначения:
E – ошибка слоя. - l-й компонент.
- целевая функция.
dj – желаемый выходной сигнал j-го нейрона слоя
yj – выходное значение, в общем случае yÎ(0,1).
xi – входное значение.
wij – вес, связывающий i-й вход с j-м выходом.
- взвешенная сумма i-го нейрона, t-го слоя.

Согласно метода распространения ошибки, имеют место следующие формулы:
(4)
, (5)
.(6)
(7)
Где - скорость обучения.
(8)
Пусть D(x) – функция, которая позволяет найти производную активационной функции f по её значению
Т.е. если
То

(9)
такими функциями, будут, например
(10)
для униполярной функции и
(11)
для биполярной функции
Рассмотрим для простоты случай биполярной функции.

(12)
Проанализируем влияние масштабирования на компонент градиента.
Пусть выход yj во всех ситуациях не превосходит . Иными словами,        (13)
Тогда, с учётом того, что нейронная сеть с униполярной функцией активации выходного слоя выдаёт значения в области (0,1) мы можем промасштабировать выход, увеличив его в раз. Для этого достаточно промасштабировать соответствующий целевой вектор. Для этого введём замену переменной

Соответственно,

Тогда, для масштабированного выхода получаем
(14)
(15)
Используя 10 выводим
                                                                                (16)
                        (17)
Введём величину М как отношение к :
.                                                                                     (18)
С помощью несложных расчётов приходим к формуле .                                                                            (19)
Собственно, анализ выражения 16 сводится к анализу множителя
.                                                                         (20)
Этот множитель отображает участок биполярной(логистической) сигмоиды на отрезке в полноценную сигмоиду на отрезке . При этом
                                                                              (21)
Исследуем свойства множителя M.
                    (22)
.                                (23)
С учётом того, что k>1, множитель всегда отрицательный, проверяя знаки производной в окрестностях особых точек, видим, что M имеет единственный экстремум – максимум в точке y=0.
Таким образом мы пришли к важному выводу: в случае биполярной функции её градиент в k раз больше при y=0, а далее монотонно убывает при и . Мы используем эту особенность для выбора оптимального коэффициента k (см. ниже).
Для дальнейших рассуждений нам понадобиться вычислить отрезок, на котором больше единицы, т.е. найти то множество y, на котором градиент .
Исходя из монотонного убывания M(y) на отрицательной и положительной полуосях для нахождения этого множества нам достаточно найти такие y, при которых M(y)=1.

.                                                                       (24)
Итак, мы вычислили, что при .
Обозначим такую величину, что . Тогда .                                                                         (25)
Подберём коэффициент масштабирования таким образом, чтобы
,                                                                                 (26)
где - максимальное значение y, причём =.
При этом условии будет верно (необходимо помнить, что сигмоидальная функция не принимает значения своего супремума и инфинума), или, что равносильно
,                                                                                              (27)
для всех значений ограниченной величины y.
Так как
,                                                                (28)
,                         (29)
что возможно если
,                                                                        (30)
Итак, при коэффициенте масштабирования градиент целевой функции больше на всей области значений нейронной сети, что ускоряет обучение ИНС.

Обобщим теперь изложенное в предыдущем пункте на случай вейвлет-преобразования.
Вейвлет-преобразование известно своими сжимающими свойствами, что проявляется в том, что при вейвлет-разложении достаточно широкого класса сигналов коэффициенты высокой детализации обычно близки к нулю. Это свойство используют для сжатия информации с потерями, отбрасывая коэффициенты и получая приближённую модель сигнала.
Как уже говорилось выше, мы рассматриваем узкий случай применения нейронных сетей: когда результатом работы нейронной сети является временной сигнал, а точнее – отсчёты некоторой временной функции.
В этом случае, если искомый сигнал (систему отсчётов функции) разложить с помощью вейвлет-преобразования, и коэффициенты этого вейвлет-преобразования по абсолютной величине малы, то выгоднее искать вейвлет-образ, а не сам сигнал. Причём эффективность возрастает при уменьшении величины коэффициентов. Интуитивно очевидно, что чем больше сигнал можно сжать при помощи выбранного вейвлет-преобразования, тем меньше коэффициенты вейвлет-образа, и тем эффективнее использование НСВЦ. Иными словами, степень сжимаемости сигнала можно считать мерой эффективности нейронной сети с вейвлет-разложением сигнала.
Представим это интуитивное понимание в более формализованном виде:
Теорема об эффективности нейронных сетей с вейвлет-разложением цели.
Пусть

дана система из 2k отсчётов f1(t0), f2(t0), f3(t0), … , некоторой функции f(t). Причём .
Пусть этой системе отсчётов соответствует вейвлет-образ из n уровней разложения и 2k коэффициентов. Обозначим его коэффиценты как ,, где при j<n+1 – детализирующие коэффициенты вейвлет-образа, а - приближённая(«огрублённая») версия сигналаfi.
Введём величины

                                                                 (31)
и
;                                                         (32)
Тогда
если среди коэффициентов существуют такие , что ,
то
градиент построенной на данном вейвлет-разложении нейронной сети с вейвлет-разложением цели больше по абсолютному значению, чем градиент соответствующей базовой ИНС (ИНС, на основе которой построена НСВЦ).
Покажем это.
Градиент целевой функции базовой нейронной сети
                                                                       (33)
Градиент целевой функции НСВЦ
                                                                      (34)
Пусть
.
Тогда из формул 18,20,21
,                                                                       (35)

где
.                                                                             (36)
При этом из соотношения 30 и утверждения 3 теоремы следует что для любых kj, yj, удовлетворяющих условию задачи,
.                                                                                            (37)

                                                                    (38)
Что и требовалось доказать.

Выводы. Нами показано, что при нахождении областей частотной локализации и проецировании значений нейронной сети на область локализации решения, в достаточно широких рамках можно добиться увеличения градиента (по сравнению с той же ИНС без частотной локализации и модуля обратной вейвлет-проекции), а следовательно, скорости сходимости нейронной сети.

Литература
1. Tebelskis, J. Speech Recognition using Neural Networks: PhD thesis … Doctor of Philosophy in Computer Science/ Joe Tebelskis; School of Computer Science, Carnegie Mellon University.– Pittsburgh, Pennsylvania, 1995.– 179 c.
2. Handbook of neural network signal processing/ Edited by Yu Hen Hu, Jenq-Neng Hwang.– Boca Raton; London; New York, Washington D.C.: CRC press, 2001.– 384c.
3. Ф.Г. Бойков Применение вейвлет-анализа в задачах автоматического распознавания речи: Дис. … кандидата физико-математических наук: 05.13.18/ Фёдор Геннадьевич Бойков.– М, 2003.– 111 с.
4. Добеши И. Десять лекций по вейвлетам.– Ижевск: НИЦ «Регулярная и хаотическая динамика», 2001.– 464 с.
5. Астапов К.А. Применение вейвлет-преобразования для сокращения области значения искусственных нейронных сетей на примере задачи распознавания речи// Астапов Константин Андреевич. // Электронный научно-инновационный журнал «Инженерный вестник Дона: электронное научное издание № ГОС. РЕГИСТРАЦИИ 0420900096, Ростов-на-Дону: . – 2009. – №1. – регистрационный номер статьи .
6. Червяков Н.И., Астапов К.А. Использование вейвлетов для улучшения параметров нейронных сетей в задачах распознавания речи. // Червяков Николай Иванович; Астапов Константин Андреевич. //Инфокоммуникационные технологии – N° 4. – 2008. – Самара: Издательство ПГУТИ, 2008. – с. – с. 9-12.