ivdon3@bk.ru
В данной статье рассматривается проблема анализа и распознавания эмоций человека с помощью обработки звуковых данных. Ввиду увеличения сфер применения, что в большей степени вызвано сложной эпидемиологической ситуацией в мире, решение описанной задачи является актуальным вопросом. Описаны основные этапы: аудиопоток данных записывается в аудиофайл и в соответствии с подходом «дактилоскопии звука» преобразуется в изображение, являющееся спектрограммой звукового набора данных. Описаны этапы обучения сверточной нейронной сети на заранее заготовленном наборе звуковых данных, а также описана структура алгоритма. Для валидации нейронной сети был отобран иной, не участвующий в тренировке, набор аудиоданных. В результате проведения исследования, были построены графики, демонстрирующие точность работы предлагаемого метода.
Ключевые слова: нейронная сеть; распознавание эмоций человека; сверточная нейронная сеть; дактилоскопия звука; Tenserflow; Keras; Matlab; Deep Network Toolbox