САМООРГАНИЗУЮЩИЕСЯ КАРТЫ КОХОНЕНА В ЗАДАЧАХ КЛАСТЕРИЗАЦИИ Анисимова Э.С.

Елабужский институт Казанского федерального университета


Номер: 9-
Год: 2014
Страницы: 13-16
Журнал: Актуальные проблемы гуманитарных и естественных наук

Ключевые слова

самоорганизующиеся карты, кластеризация, интеллектуальный анализ данных, self-organizing maps, clustering, data mining

Просмотр статьи

⛔️ (обновите страницу, если статья не отобразилась)

Аннотация к статье

Статья рассматривает одну из технологий кластеризации - самоорганизующиеся карты Кохонена. Представлены алгоритм работы, структура сети.

Текст научной статьи

Самоорганизующаяся карта Кохонена - соревновательная нейронная сеть с обучением без учителя, выполняющая задачу визуализации и кластеризации. Идея сети предложена финским учёным Теуво Кохоненом. Является методом проецирования многомерного пространства в пространство с более низкой размерностью (чаще всего, двумерное), применяется также для решения задач моделирования, прогнозирования и др. В основе идеи сети Кохонена лежит аналогия со свойствами человеческого мозга. Кора головного мозга человека представляет собой плоский лист и свернута складками. Она обладает определенными топологическими свойствами (участки, ответственные за близкие части тела, примыкают друг к другу и все изображение человеческого тела отображается на эту двумерную поверхность). Структура сети Сеть Кохонена, в отличие от многослойной нейронной сети, очень проста; она представляет собой два слоя: входной и выходной. Ее также называют самоорганизующей картой. Рис. 1. Самоорганизующаяся карта Кохонена SOM (Self-organizing map) подразумевает использование упорядоченной структуры нейронов. Обычно используются одно и двумерные сетки. При этом каждый нейрон представляет собой n-мерный вектор-столбец , где n определяется размерностью исходного пространства (размерностью входных векторов). При этом, как было сказано выше, нейроны также взаимодействуют друг с другом. Величина этого взаимодействия определяется расстоянием между нейронами на карте. Алгоритм работы сети Пусть - номер итерации (инициализация соответствует номеру 0). · Инициализация Наиболее распространены три способа задания первоначальных весов узлов: o Задание всех координат случайными числами. o Присваивание вектору веса значение случайного наблюдения из входных данных. o Выбор векторов веса из линейного пространства, натянутого на главные компоненты набора входных данных. · Цикл o Выбрать произвольное наблюдение x(t) из множества входных данных. o Найти расстояния от него до векторов веса всех узлов карты и определить ближайший по весу узел Mc(t). Это - BMU или Winner. Условие на Mc(t): , для любого , где - вектор веса узла Mi(t). Если находится несколько узлов, удовлетворяющих условию, BMU выбирается случайным образом среди них. o Определить с помощью функции (функции соседства) соседей и изменение их векторов веса. Часто в качестве функции соседства используется гауссовская функция: где - обучающий сомножитель, монотонно убывающий с каждой последующей итерацией (то есть определяющий приближение значения векторов веса BMU и его соседей к наблюдению; чем больше шаг, тем меньше уточнение); , - координаты узлов и на карте; - сомножитель, уменьшающий количество соседей с итерациями, монотонно убывает. Более простой способ задания функции соседства: , если Mi(t) находится в окрестности Mc(t) заранее заданного аналитиком радиуса, и 0 в противном случае. Функция h(t) равна α(t) для BMU и уменьшается с удалением от BMU. § Изменить вектор веса по формуле: o Вычисление ошибки карты Например, как среднее арифметическое расстояний между наблюдениями и векторами веса соответствующих им BMU: , где N - количество элементов набора входных данных. Раскраска, порожденная отдельными компонентами При данном методе отрисовки полученную карту можно представить в виде слоеного пирога, каждый слой которого представляет собой раскраску, порожденную одной из компонент исходных данных. Полученный набор раскрасок может использоваться для анализа закономерностей, имеющихся между компонентами набора данных. После формирования карты мы получаем набор узлов, который можно отобразить в виде двумерной картинки. При этом каждому узлу карты можно поставить в соответствие участок на рисунке, четырех или шестиугольный, координаты которого определяются координатами соответствующего узла в решетке. Теперь для визуализации осталось только определить цвет ячеек этой картинки. Для этого и используются значения компонент. Самый простой вариант - использование градаций серого. В этом случае ячейки, соответствующие узлам карты, в которые попали элементы с минимальными значениями компонента или не попало вообще ни одной записи, будут изображены черным цветом, а ячейки, в которые попали записи с максимальными значениями такого компонента, будут соответствовать ячейки белого цвета. Полученные раскраски в совокупности образуют атлас, отображающий расположение компонент, связи между ними, а также относительное расположение различных значений компонент. Рис. 2. Пример карты Кохонена Отображение кластеров Кластером будет являться группа векторов, расстояние между которыми внутри этой группы меньше, чем расстояние до соседних групп. Структура кластеров при использовании алгоритма SOM может быть отображена путем визуализации расстояния между опорными векторами (весовыми коэффициентами нейронов). Заключение Основное отличие сетей Кохонена от других моделей состоит в наглядности и удобстве использования. Эти сети позволяют упростить многомерную структуру, их можно считать одним из методов проецирования многомерного пространства в пространство с более низкой размерностью.

Научные конференции

 

(c) Архив публикаций научного журнала. Полное или частичное копирование материалов сайта возможно только с письменного разрешения администрации, а также с указанием прямой активной ссылки на источник.