Методика восстановления пропусков в социально-экономических данных на основе нечеткой формализации
Аннотация
В статье рассматривается проблема восстановления пропусков в социально-экономических данных. Используются коннективистские принципы описания многоуровневых связей между социально-экономическими объектами для восстановления пропусков в данных. Предложен нечеткий метод заполнения пропусков в данных социально-экономических параметров на основе анализа и формализации в терминах нечеткой логики взаимосвязей между параметрами аналогичного типа в других объектах сети. Для обоснования эффективности показан пример реализации метода на данных о сельских поселениях Волгоградской области.
Ключевые слова: социально-экономические параметры, пропуски в данных, нечеткая логика, восстановление данных.Ключевые слова:
05.13.01 - Системный анализ, управление и обработка информации (по отраслям)
Введение. Для решения задачи оптимального управления сложными системами , такими как социально-экономические объекты (муниципальные образования, товарищества самоуправления и проч.) требуется оперативное наблюдение за характеристиками [1, 2]. Как правило, системы мониторинга соц. экономических объектов осуществляет сбор информации в разрезе различных групп параметров. В частности в паспортах муниципальных образований число групп превышает 25, а общее число параметров превышает 700 [3, 4]. При этом, можно выделить различные степени ответственности, механизмы сбора и консолидации данных и степень автоматизации этого процесса. Если этап агрегации данных не автоматизирован, что является распространенной проблемой, то значительно увеличивается время на обработку и число ошибок. К примеру на рис 1. отображены результаты анализа одного из паспорта МО и отмечено число пропусков в данных для различных групп параметров.
Для некоторых групп пропуски в данных составляют 100%. Безусловно, такая ситуация является неблагоприятной для дальнейшего анализа данных. Можно выделить два решения такой проблемы. Первое связано с принудительным уточнением информации у руководителей или ответственных лиц. В этом случае опять критичным является критерий времени. Если же необходимо быстро принять оценочное решение, то в качестве решения проблемы может быть восстановление пропусков в данных с использованием аналитических моделей, моделей дата майнинга.
Рисунок 1. Результаты анализа пропусков в данных в паспортах муниципальных образований, полученных для 22 различных групп параметров. В группах 13 и 18 – 100% пропуски в данных.
В статье предлагается оригинальный подход восстановления пропусков в данных, основанный на наличии закономерностей между значениями показателей одного и того же типов в различных муниципальных образованиях и подходах нечеткой логики [5, 6, 7]. Если требуется получить предварительную оценку (или интервал значений), то предлагается использовать положения нечеткой логики. Для вычисления конечного результата, определяется расстояние между анализируемым объектом и объектами, влияющими на него.
Постановка задачи. Пусть имеется множество S социально-экономических объектов , которое удобно представить в виде гиперграфа , где R – ребра, охватывающие объекты и характеризующие связи между ними (например, принадлежность к одному и тому же региону). Каждый объект , также можно представить в виде гиперграфа 2-го уровня: , где , – переменные, характеризующие объект , – ребра, определяющие взаимосвязи между переменными в узле , (например, зависимость рождаемости от показателей экономического развития муниципального образования). Каждая переменная может быть определенного типа P и число типов конечное. Пусть имеется некоторый объект и имеющий набор переменных в котором существует хотя бы одна переменная для которой в некоторые временные отсчеты отсутствуют данные, т.е. имеются пропуски. Требуется разработать некоторый механизм , который бы позволил на основе связей между параметрами и объектами, т.е. на основании гиперграфов заполнять пропуски с эффективностью .
Метод. Рассмотрим метод формирования механизма .
Шаг 1. Определим подмножество , состоящее из объектов, охватываемых набором ребер из , включающих объект .
Шаг 2. Определить подмножество , состоящее из объектов, имеющие вершины, аналогичного типа как и вершина и определить – подмножество таких вершин. Считаем что для каждой вершины из определены минимальное и максимальное значения.
Шаг 3. Определить – число нечетких множеств для переменных из . Положим, что функция принадлежности представляет собой гауссовскую функцию , где – параметр, определяющий центр класса нечеткого множества, – параметр, определяющий «ширину» гауссовской кривой. Считаем, что .
Шаг 4. Для каждой вершины
4.1 определить множества центров классов и параметров ширины гауссовской кривой для каждого нечеткого множества из, при этом и .
4.2 определить последовательность нечетких переменных для каждого момента времени t, посредством вычисления функции принадлежности и выборы наиболее близкого нечеткого множества полученному значению.
Шаг 5. Выполнить подсчет различных вариантов образовавшихся последовательностей . Обозначить это число d.
Шаг 6. Определить вариант последовательности для анализируемой переменной с помощью процедуры максимального правдоподобия, если .
Шаг 7. Заполнить последовательность для на основе определенных на 4.2 последовательной того же варианта.
Шаг 8. Осуществить деффазификацию последовательности для
Испытание. Рассмотрим использование метода для восстановления пропусков в данных паспортов муниципальных образований Быковского муниципального района Волгоградской области. Информация взята с официального сайта Федеральной службы статистики [8]. В Быковском районе 13 сельских поселений, одно из которых было выбрано с целью восстановления данных. Без потери общности, считаем, что каждый объект имеет только одну переменную одного и того же типа, например доходность местного бюджета за календарный год (в тыс. рублей). Для испытания метода, пропуски были внесены в данные одного из поселений в 2008 и 2009 годах. В качестве базового метода заполнения пропусков, как правило, используется расчет среднего показателя. Если имеются, экспертные оценки, то формируются поправки этих значений. Для расчета эффективности использовался показатель абсолютной процентной ошибки: , где – реальное значение, – восстановленное . Число нечетких переменных было определено равным 5. Для упрощения вычислений при дефаззификации использовался центр класса нечеткого множества в сформированной последовательности. Исходные данные, данные с пропусками для Красносельцевское сельского поседения, а также результаты восстановления усредненными значениями и предложенным методом, представлены в таблице 1.
Таблица 1. Исходные данные и результаты восстановления пропусков
2006 |
2007 |
2008 |
2009 |
2010 |
E, % |
|
Исходные данные |
1622 |
3406 |
4484 |
5568 |
6506 |
- |
Данные с пропусками |
1622 |
3406 |
X |
X |
6506 |
- |
Метод среднего |
1622 |
3406 |
3845 |
3845 |
6506 |
22,60% |
Предложенный метод |
1622 |
3406 |
4439 |
5167 |
6506 |
4,10% |
Заключение. В статье предложен нечеткий метод заполнения пропусков в данных социально-экономических параметров на основе анализа и формализации в терминах нечеткой логики взаимосвязей между параметрами аналогичного типа в других объектах сети. Рассмотрен пример реализации подхода на восстановлении данных в паспортах муниципальных образований Волгоградской области для параметра поступления в бюджет. Отметим, что целесообразно рассмотреть различные подходы к формированию искомой последовательности нечетких множеств с учетом анализа отклонений от центра классов и комбинации различных последовательностей.
Список литературы
1.Камаев В. А. , Щербаков М. В., Аль-Катабери А. С., Анализ социально-экономического развития муниципальных образований на примере Волгоградской области с использованием моделей data mining// Изв. ВолгГТУ. Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах": межвуз. сб. науч. ст. / ВолгГТУ. - Волгоград, 2010. Т. 6. № 8. С. 103-106.
2.Щербаков, М.В. Формализация процесса социально-экономического развития муниципальных образований в виде распределённой модели / М.В. Щербаков, А.С. Аль-Катабери // Инновационные технологии в управлении, образовании, промышленности "АСТИНТЕХ-2009": матер. междунар. науч. конф. (11-14 мая 2009 г.) / Астраханский гос. ун-т [и др.]. - Астрахань, 2009. - C. 87-88.
3.Щербаков, М. В. Формализация информации о социально-экономическом развитии муниципальных образований для решения задач управления/М. В. Щербаков, А. С. Аль-Катабери//XII Международная конференция «Проблемы управления и моделирования в сложных системах», 22-24 июня 2009 г.: тез. докл./РАН. -Самара, 2009. -С. 532-535.
4.Щербаков, М.В., Аль-Катабери, А.С. Построение модели муниципального образования на основе системной динамики / А.С. Аль-Катабери, М.В. Щербаков // Инновационные технологии в обучении и производстве: матер. V всерос. н.-пр. конф., Камышин, 4-6 дек. 2008 г. В 3 т. Т. 2 / КТИ (филиал) ВолгГТУ [и др.]. - Камышин, 2008. - C. 115-117.
5.Применение нечётких темпоральных высказываний для описания движений при эмоциональных реакциях / А.В. Заболеева-Зотова, Ю.А. Орлова, В.Л. Розалиев, А.С. Бобков // Изв. ВолгГТУ. Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах". Вып. 10: межвуз. сб. науч. ст. / ВолгГТУ. - Волгоград, 2011. - № 3. - C. 60-64.
6.Щербаков, М.В. Проблемы проектирования систем прогнозирования эксплуатационного состояния автомобильных дорог на основе нечётких нейронных сетей / М.В. Щербаков, Д.А. Скоробогатченко, А.А. Авдеев, М.А. Аль-Гунаид // Изв. ВолгГТУ. Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах". Вып. 10: межвуз. сб. науч. ст. / ВолгГТУ. - Волгоград, 2011. - № 3. - C. 82-87.
7.Камаев, В.А. Применение нечётких нейросетевых моделей для идентификации состояния автомобильных дорог / В.А. Камаев, М.В. Щербаков, Д.А. Скоробогатченко // Вестник компьютерных и информационных технологий. - 2010. - № 12. - C. 36-41.
8.Федеральная служба статистики. Паспорт муниципального образования. Волгоградская область http://www.gks.ru/scripts/ db_inet2/passport/munr.aspx?base=munst18 Режим доступа [11.11.2011]