Нечеткие гибридные системы в задачах интеллектуального анализа данных




Скачать 109.39 Kb.
НазваниеНечеткие гибридные системы в задачах интеллектуального анализа данных
Дата16.02.2013
Размер109.39 Kb.
ТипЗадача


УДК 004.8

НЕЧЕТКИЕ ГИБРИДНЫЕ СИСТЕМЫ В ЗАДАЧАХ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

Н.Г. Ярушкина 1, А.П. Вельмисов 2 , А.А. Стецько 2


В статье рассмотрены методы построения средств интеллектуального анализа данных (Data Miners DM) для нечетких реляционных серверов данных. Задачи интеллектуального анализа данных ограничены задачами кластеризации и выявления зависимостей в форме нечетких продукций, так как данные задачи особенно важны на практике. В статье предложен гибридный алгоритм нечеткой кластеризации и способ использования нечеткой нейронной сети в качестве DM для нечетких реляционных данных.


Введение.

В настоящее время применение методов анализа данных часто бывает затруднено тем, что часто для конкретной задачи из какой либо предметной области выборка характеризуется не числовым характером атрибутов. В частности, в макроэкономических, социологических, маркетинговых, медицинских базах данных широко используется лингвистическая форма представления данных. Для оперирования подобными данными необходимо организовать среду хранения нечетких атрибутов. В настоящее время существует ряд теоретических и практических разработок, позволяющих создавать хранилища данных с нечеткими атрибутами. Это отражено в работах Дидьера Дюбуа [Дюбуа Д., 1990 ], Мичинори Наката (Michiori Nakata), Генри Прада (Henri Prade) [Eufit'98 1998 ], в которой исследуется нахождение элементов, с достаточно важными характеристиками; Ж.К.Куберо (J.C.Cubero), Ф.Куенца (F.Cuenca), И.Бланко (I.Blanco), М.А.Вила (M.A.Vila) [IFSA'97, 1997 ], где рассматриваются неполные функциональные зависимости в сравнении с нахождением знаний в базах данных; исследования Греда Вагнера (Gred Wagner) [Eufit'98 1998 ], связаны с логической перестройкой нечеткого обращения в базах данных и логических программах; М.А.Вила (M.A.Vila), Ж.К.Куберо (J.C.Cubero), О.Понс (O.Pons), Дж.М.Медина (J.M.Medina) , где исследуются запросы в объектно-ориентированных нечетких базах данных; Анны Изабель Агуилера Фарако (Ana Isabel Aguilera Faraco) и Леонида Жозе Тинео Родригаса (Leonid Jose Tineo Rodriguez) [Eufit'98 1998 ], в которой разработана нечеткая дедуктивная модель и доведена до реального воплощения; Горбоконенко Е.А. [Горбоконенко Е.А. 2000a; 2000b, 2001], где предложена и реализована нечеткая реляционная модель данных.

Несмотря на значительные результаты достигнутые в интеллектуальном анализе данных остается ряд нерешенных задач. Так, использование не числовых атрибутов, в том числе нечетких, не поддержано разработанными методами анализа.


1. Формализованная постановка задачи нечеткой кластеризации.

Пусть исследуемая совокупность представляет собой конечное множество элементов , которое получило название множество объектов кластеризации. В рассмотрение вводиться конечное множество признаков или атрибутов , каждый из которых количественно представляет некоторое свойство или характеристику элементов рассматриваемой проблемной области. При этом - общее количество объектов данных, а - общее количество измеримых признаков.

Далее предполагается, что для каждого из объектов кластеризации некоторым образом измерены все признаки множества в некоторой количественной шкале. Тем самым, каждому из элементов поставлен в соответствие некоторый вектор , где - количественное значение признака для объекта . Для определенности будем предполагать, что все принимают действительные значения. Векторы значений признаков удобно представлять в виде матрицы данных размерности каждая строка которой равна значению вектора .

Задача нечеткого кластерного анализа формулируется следующим образом: на основе исходных данных определить такое нечеткое разбиение или нечеткое покрытие множества на заданное число нечетких кластеров которое доставляет экстремум некоторой целевой функции среди всех нечетких разбиений или экстремум целевой функции среди всех нечетких покрытий.

Для решения задачи требуется дополнительно уточнить вид целевой функции и тип искомых нечетких кластеров (поиск нечеткого разбиения или покрытия).


2. Модель и реализация нечеткого реляционного сервера данных.

Предложена нечеткая реляционная модель данных, определены следующие требования и ограничения к модели.

Пусть схемой отношения R называется конечное множество имен атрибутов {A1, A2, …, An}. Каждому имени атрибута Ai ставится множество Di, называемое доменом атрибута Ai, 1 i n. Домены являются произвольными непустыми конечными или счетными множествами. И пусть D = 1, D2 , …,Dn>.

Домен атрибута реляционного отношения будем называть нечетким, если для него определены:

  1. имя атрибута Ai;

  2. универсальное множество X;

  3. терминальное множество значений T, представляющих собой нечеткие метки.

Нечетким отношением будем называть конечное множество отображений {t1, t2, …, tp} из R в D, если хотя бы одно ti  Di и Di – нечеткий домен.

Модель рассчитана на представление нечетких чисел; следовательно, доменом атрибута нечеткого числа является множество действительных чисел. Нечеткое число определяется на основе:

  1. функции принадлежности;

  2. лингвистической оценки.

Под лингвистической оценкой будем понимать одно из возможных значений лингвистической переменной, которое определяется соответствующим термом.

3. Гибридный алгоритм нечеткой кластеризации.

Для эффективной кластеризации предлагается следующий алгоритм:

  1. Новая функция оценки сепарабельности и компактности.

  2. Алгоритм кластеризации. Многошаговый maxnim.

С помощью Maxmin метода производится инциализация разбиений путем разделения объектов настолько, насколько это возможно. Затем, путем оптимизации находится локальный оптимум. Каждый центр кластера используется в качестве начальной точки. Затем переход на следующую итерацию. Алгоритм выполняется до сходимости алгоритма или пока не будет достигнуто заданное количество итераций.

После нахождения оптимального решения для выбранного количества кластеров с, с помощью алгоритма объединения находим разбиение с-1.

Из множества существующих алгоритмов кластеризации лишь несколько ориентированны на кластеризацию плотных скоплений точек. Эти методы предполагают, что пользователем задано число кластеров и/или некоторые пороговые значения, изменение которых сильно влияет на результат.

  1. Предлагается новая функция оценки, которая пригодна для использования даже при очень большом количестве кластеров.

  2. Предлагается новый гибридный алгоритм кластеризации. В данном алгоритме применяется оптимизированный maxmin метод в сочетании со стратегией слияния таким образом, что всегда возможно сформировать оптимальные варианты для переменного количества кластеров. Затем с помощью функции оценки, которая основана на мерах сепарабельности и компактности, выбирается оптимальный вариант кластеризации.

Гибридный алгоритм кластеризации включает в себя следующие шаги.

Вход: множество данных , maxnum – максимальное количество кластеров.

Выход: Оптимальное множество кластеров .

Шаг 1. , , . Случайным образом выбирается объект в качестве точки старта . Выполняется многошаговый maxmin алгоритм с параметрами для поиска оптимального множества кластеров для . Вычисляется функция оценки для .

Шаг 2. Выполняется алгоритм слияния для получения множества кластеров , выбирается центр в качестве точки старта , , . Выполняется многошаговый maxmin алгоритм с параметрами для поиска оптимального множества кластеров для . Вычисляется функция оценки для и принимается как . Если , тогда , , . Повтор шага 2, пока .

Шаг 3. Вывод: - оптимальное множество кластеров.


Данный алгоритм имеет ряд преимуществ перед другими алгоритмами кластеризации.


Сравнение алгоритмов кластеризации. Табл. 1

Алгоритм

Применимость к сильно сгруппированным данным

Необходимость указания количества кластеров

Чувствительность к входным параметрам

Применимость к неравномерно распределенным данным

Гибридный алгоритм

Да

Нет

Нет

Да

k-средних

Да

Да

Да

Да

Субстрактивный

Да

Нет

Да

Нет

Maxmin

Да

Нет

Да

Да

Fuzzy c-means

нет

да

Да

Да


4. Результат кластеризации социологической базы данных .

В 2000 году институтом социально-экономических проблем народонаселения при российской академией наук была разработана анкета «Социально-экономическое положение населения России». Анкета имеет такие разделы, как «Общие данные», «Занятость», «Социальная мобильность», «Социальное положение», «Политическая активность», «Социально-демографический состав домохозяйства», «Уровень жизни домохозяйства», «Расходы», «Имущество», «Жилищные условия», «Личное подсобное хозяйство (для сельских жителей), дачный, огородный участок (для горожан)». Выборка данных для анализа представлена результатами проведения анкетирования в г. Димитровград Ульяновской области.

Целью данной анкеты являлось изучение социально-экономического положения населения России. Эти данные необходимы для корректировки экономической политики России, разработки рекомендаций по мерам, направленным на повышение уровня жизни российских граждан. Анкета состоит из 129 пунктов (438 вопросов). Для проведения опроса случайным образом были отобраны 1080 человек.

На некоторые из вопросов нельзя дать четких ответов, например, вопрос №46 «Как часто Вы работаете дома по вечерам и в Ваши выходные дни?». Варианты ответов: часто, редко, никогда. Кластеризация таких данных сложна, так как при делении на классы необходимо объединять различные лингвистические метки. Данные, полученные на основе анкетирования, были погружены в нечеткий реляционный сервер данных. В результате были получены данные, пригодные для автоматизированной обработки информации с помощью DM. Нечетким меткам были поставлены в соответствие функции принадлежности

.

Функции принадлежности. Табл.2


OBJ_NAME

FE_NAME

FN_STRING

ЗДОРОВЬЕ

ОТЛИЧНОЕ

0.00/3+1.00/4

ЗДОРОВЬЕ

ОЧЕНЬ_ПЛОХОЕ

1.00/0+0.00/1

ЗДОРОВЬЕ

ПЛОХОЕ

0.00/0+1.00/1+0.00/2

СЛОЙ

ВЕРХНИЙ_СЛОЙ

0.00/4+1.00/5+0.00/6

СЛОЙ

СРЕДНИЙ_СЛОЙ

0.00/2+1.00/3+0.00/4

СЛОЙ

ЭЛИТА

0.00/5+1.00/6

СЛОЙ

СОЦИАЛЬНОЕ_ДНО

1.00/0+0.00/1


Данные были погружены в нечеткий сервер данных и проанализированы с помощью разработанного DM.

По результатам анализа можно сделать вывод о выделении кластера, представители которого имеют две квартиры и большую жилплощадь. Также можно отметить, что они более приспособлены к экономической ситуации, верят в себя и часто работают дома. Причем денежные поступления у них не больше чем у остальных. Похоже, что они после школы начали работать и преуспели в профессиональном плане.

Причиной отсутствия четкого разделения между социальными слоями общества являются особенности исходных данных, рассмотренные ниже. Как показывает результат, подавляющее большинство людей относят себя к среднему социальному классу. К высшему классу отнесли себя менее 1% опрошенных.

При кластеризации по субъективным атрибутам получаем следующие результаты, приведенные на рис. 1



Рис. 1 Результаты кластеризации

Явно выделяется класс людей среднего положения, нормально обеспеченных, хорошо знающих свое дело, хорошо приспособленных и верящих в то, что положение в стране не ухудшится. Представители третьего класса считают, что положение их семьи и уровень обеспечения низкий, приспособленность к ситуации очень низкая, причем они знают, что их состояние полностью определяется их собственными усилиями. Свою квалификацию оценивают как низкую и думают, что жизнь ухудшится. Второй класс похож на третий с той разницей, что его представители считают себя немного более приспособленными, уверены в свой квалификации, хотя и не верят в свои силы.


Заключение

С использованием математического аппарата, описанного выше, был реализован DM для реляционных баз данных с нечеткими атрибутами. Программный продукт позволяет производить кластеризацию нечетких данных и выявлять зависимости в виде нечетких продукций. Представленный алгоритм позволяет проводить кластеризацию сильно сгруппированных и неравномерно распределенных данных, нечувствителен к входным параметрам и не требует указания количества кластеров. Разработанный программный продукт может быть эффективно использован для обработки социологических, медицинских, макроэкономических, маркетинговых и других баз данных, которые предполагают хранение данных в виде лингвистических меток и нечетких атрибутов.

Список литературы


[IFSA'97, 1997 1] IFSA'97. Prague. Seventh International Fuzzy System Association World Congress. University of Economics Prague

[Fuzzy Structures, 1997 2] Tatra Mountaints. Mathematical Publications. Fuzzy Structures. Current Trends Volume 13 1997

[Eufit'98 1998 3] Eufit'98 6th European Congress on Intelligent Techniques and Soft Computing ELITE - European Laboratory for Intelligent Techniques Engineering. Hrsg. Von Prof. Dr. Dr. h. c. Hans-Jurgen Zimmermann. - Aachen: Mainz, 1998 ISBN3-89653-500-5

[Горбоконенко Е.А. 2000a 4] Горбоконенко Е.А., Ярушкина Н.Г. Представление нечеткой информации в СУБД. Труды 7-ой национальной конференции по искусственному интеллекту - М.: издательство физ.-мат. литературы, 2000, с. 479-484

[Горбоконенко Е.А. 2000b 5] Горбоконенко Е.А. FuzzyData Manager. Регистрационный номер в Информационно-библиотечном фонде Российской Федерации 50200100422.

[Горбоконенко Е.А 2001 6] ., Ярушкина Н.Г. Применение нечеткой СУБД в САПР. Труды конгресса «Искусственный интеллект в XXI веке». Научное издание. – М.: Издательство Физико-математической литературы, 2001г.

[Городецкий В.И 2002a 7]. Современное состояние технологии извлечения знаний из баз и хранилищ данных (Часть1) Новости ИИ, 2002, №3

[Городецкий В.И. 2002b 8] Современное состояние технологии извлечения знаний из баз и хранилищ данных (Часть2) Новости ИИ, 2002, №4

[Дюбуа Д., 1990 9] Дюбуа Д Прад А. Теория возможностей. Приложения к представлению знаний в информатике.: Пер. с фр. – М.: Радио и связь, 1990: 288 с.

[Ярушкина Н.Г 15] Ярушкина Н.Г. Основы теории нечетких и гибридных систем. М.: Финансы и статистика, 2004, 320 с.


1 432000, Ульяновск,ул..Северный Венец 32, УлГТУ jng@ulstu.ru

2 432000, Ульяновск,ул..Северный Венец 32, УлГТУ sasa@ulstu.ru

2 432000, Ульяновск, ул..Солнечная 37, ФНПЦ ОАО «НПО МАРС»

Похожие:

Нечеткие гибридные системы в задачах интеллектуального анализа данных iconНазвание курса
Обсуждаются вопросы хранения данных, построения многомерных моделей данных, решения задач оперативного и интеллектуального анализа...
Нечеткие гибридные системы в задачах интеллектуального анализа данных iconСоздание компьютерной системы интеллектуального анализа фармакологических данных

Нечеткие гибридные системы в задачах интеллектуального анализа данных iconВозможности применения методов интеллектуального анализа данных в системах обнаружения вторжений
Аннотация: Представлена возможность применения методов интеллектуального анализа данных в системах обнаружения атак
Нечеткие гибридные системы в задачах интеллектуального анализа данных icon: 001. 8 О представлении данных и знаний для интеллектуального анализа социологических данных
Предлагаемое представление позволяет реализовать интеллектуальный анализ социологических данных в интеллектуальных системах типа...
Нечеткие гибридные системы в задачах интеллектуального анализа данных iconРазработка мультиагентной системы адаптивного анализа потоков данных в сложных динамических средах
Мультиагентный алгоритм кластеризации потоков данных может быть использован для анализа потоков данных в сложных средах, так как...
Нечеткие гибридные системы в задачах интеллектуального анализа данных iconПроекта
Разработка моделей социальных явлений с помощью методов интеллектуального анализа данных
Нечеткие гибридные системы в задачах интеллектуального анализа данных iconИсследование напряженно-деформированного состояния полосы из вязкопластического материала
Оценка рынка недвижимости г. Чебоксары на основе средств интеллектуального анализа данных
Нечеткие гибридные системы в задачах интеллектуального анализа данных iconАвтореферат на соискание ученой степени
Методы, модели и алгоритмы интеллектуального анализа данных при создании обучающих систем в текстильной и легкой промышленности
Нечеткие гибридные системы в задачах интеллектуального анализа данных iconМетодические рекомендации по организации самостоятельной работы магистрантов Контрольно-измерительные материалы
Новые информационные и коммуникационные технологии. Понятие и классификация сред конечного пользователя. Концепция интеллектуального...
Нечеткие гибридные системы в задачах интеллектуального анализа данных iconАрмавирская государственная педагогическая академия
Егэ по информатике», «Хранение информации в компьютере. Файловая система», «Основы алгоритмизации в задачах егэ по информатике»,...
Разместите кнопку на своём сайте:
Библиотека


База данных защищена авторским правом ©lib.znate.ru 2014
обратиться к администрации
Библиотека
Главная страница