ivdon3@bk.ru
В статье рассмотрен способ автоматизированного формирования обучающего набора данных для алгоритмов машинного обучения классификации электронных документов, отличающийся от известных формированием обучающих наборов данных на основе синтеза методов кластеризации и аугментации данных на основе расчета расстояния между объектами в многомерных пространствах.
Ключевые слова: обучение с учителем, кластеризация, распознавание образов, алгоритм машинного обучения, электронный документ, векторизация, формализованные документы
В статье рассмотрена методика формирования и определения параметров алгоритмов машинного обучения классификации электронных документов по значимости информации для должностных лиц организаций отличающаяся от известных динамическим формированием структуры и количества алгоритмов машинного обучения, за счет автоматизированного определения множеств структурных подразделений организации, множеств ключевых слов, отражающих задачи и функции структурных подразделений в процессе автоматизированного анализа Положения об организации, Положений структурных подразделений на основе теории распознавания образов.
Ключевые слова: лемматизация, распознавание образов, алгоритм машинного обучения, электронный документ, векторизация, формализованные документы