Стремительное развитие информационных технологий, в частности, прогресс в методах сбора, хранения и обработки данных позволил многим организациям собирать огромные массивы данных, которые необходимо анализировать. Объемы этих данных настолько велики, что возможностей экспертов уже не хватает.
На сегодняшний день интенсивно развивается направление, связанное с интеллектуализацией методов обработки и анализа данных. Интеллектуальные системы анализа данных (ИСАД) призваны минимизировать усилия лица, принимающего решения (ЛПР), в процессе анализа данных, а также в настройке алгоритмов анализа. Многие ИСАД позволяют не только решать классические задачи принятия решения, но и способны выявлять причинно-следственные связи, скрытые закономерности в системе, подвергаемой анализу.

Интеллектуальный анализ данных

Data Mining – это сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий. В технологии Data Mining гармонично объединились строго формализованные методы и методы неформального анализа, т.е. количественный и качественный анализ данных.

 

Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.

 

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).

 

Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющих специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.
Знания, добываемые методами Data mining, принято представлять в виде моделей.

Модели представления знаний Data Mining

12 - Обзор методов Data Mining

Обзор существующих методов

Методы построения таких моделей принято относить к области искусственного интеллекта.

 

Анализ подходов и методов решения задачи.

 

К методам и алгоритмам Data Mining относятся:

  • искусственные нейронные сети
  • деревья решений, символьные правила
  • методы ближайшего соседа и k-ближайшего соседа
  • метод опорных векторов
  • байесовские сети
  • линейная регрессия
  • корреляционно-регрессионный анализ
  • иерархические методы кластерного анализа
  • неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы
  • эволюционное программирование и генетические алгоритмы
  • метод ограниченного перебора
  • эволюционное программирование и генетические алгоритмы
  • разнообразные методы визуализации данных и множество других методов.

Большинство аналитических методов, используемые в технологии Data Mining – это известные математические алгоритмы и методы. Новым в их применении является возможность их использования при решении тех или иных конкретных проблем, обусловленная появившимися возможностями технических и программных средств. Следует отметить, что большинство методов Data Mining были разработаны в рамках теории искусственного интеллекта.
Метод представляет собой норму или правило, определенный путь, способ, прием решений задачи теоретического, практического, познавательного, управленческого характера.

Свойства методов Data Mining

Различные методы Data Mining характеризуются определенными свойствами, которые могут быть определяющими при выборе метода анализа данных. Методы можно сравнивать между собой, оценивая характеристики их свойств.
Основные свойства и характеристики методов Data Mining: точность, масштабируемость, интерпретируемость, проверяемость, трудоемкость, гибкость, быстрота и популярность.
Масштабируемость – свойство вычислительной системы, которое обеспечивает предсказуемый рост системных характеристик, например, быстроты реакции, общей производительности и пр., при добавлении к ней вычислительных ресурсов.
В таблице 1 приведена сравнительная характеристика некоторых распространенных методов. Оценка каждой из характеристик проведена следующими категориями, в порядке возрастания: чрезвычайно низкая, очень низкая, низкая/нейтральная, нейтральная/низкая, нейтральная, нейтральная/высокая, высокая, очень высокая.

bezymjannyj2 - Обзор методов Data Mining

Как видно из рассмотренной таблицы, каждый из методов имеет свои сильные и слабые стороны. Но ни один метод, какой бы не была его оценка с точки зрения присущих ему характеристик, не может обеспечить решение всего спектра задач Data Mining.

Классификация методов

Работа с данными

 

Все методы Data Mining можно разделить на две большие группы по принципу работы с исходными обучающими данными. В этой классификации верхний уровень определяется на основании того, сохраняются ли данные после Data Mining либо они дистиллируются для последующего использования.
Непосредственное использование данных, или сохранение данных.
В этом случае исходные данные хранятся в явном детализированном виде и непосредственно используются на стадиях прогностического моделирования и/или анализа исключений. Проблема этой группы методов – при их использовании могут возникнуть сложности анализа сверхбольших баз данных.

3 1 - Обзор методов Data Mining

Выявление и использование формализованных закономерностей, или дистилляция шаблонов.
При технологии дистилляции шаблонов один образец (шаблон) информации извлекается из исходных данных и преобразуется в некие формальные конструкции, вид которых зависит от используемого метода Data Mining. Этот процесс выполняется на стадии свободного поиска, у первой же группы методов данная стадия в принципе отсутствует. На стадиях прогностического моделирования и анализа исключений используются результаты стадии свободного поиска, они значительно компактнее самих баз данных. Конструкции этих моделей могут быть трактуемыми аналитиком либо не трактуемыми (“черными ящиками”).

4 1 - Обзор методов Data Mining
  • Логические методы, или методы логической индукции, включают: нечеткие запросы и анализы; символьные правила; деревья решений; генетические алгоритмы. Методы этой группы являются, пожалуй, наиболее интерпретируемыми – они оформляют найденные закономерности, в большинстве случаев, в достаточно прозрачном виде с точки зрения пользователя. Полученные правила могут включать непрерывные и дискретные переменные. Следует заметить, что деревья решений могут быть легко преобразованы в наборы символьных правил путем генерации одного правила по пути от корня дерева до его терминальной вершины. Деревья решений и правила фактически являются разными способами решения одной задачи и отличаются лишь по своим возможностям. Кроме того, реализация правил осуществляется более медленными алгоритмами, чем индукция деревьев решений.
  • Методы кросс-табуляции: агенты, байесовские (доверительные) сети, кросс-табличная визуализация. Последний метод не совсем отвечает одному из свойств Data Mining – самостоятельному поиску закономерностей аналитической системой. Однако предоставление информации в виде кросс-таблиц обеспечивает реализацию основной задачи Data Mining – поиск шаблонов, поэтому этот метод можно также считать одним из методов Data Mining.
  • Методы на основе уравнений. Методы этой группы выражают выявленные закономерности в виде математических выражений – уравнений. Следовательно, они могут работать лишь с численными переменными, и переменные других типов должны быть закодированы соответствующим образом. Это несколько ограничивает применение методов данной группы, тем не менее, они широко используются при решении различных задач, особенно задач прогнозирования. Данная классификация разделяет все многообразие методов Data Mining на две группы: статистические и кибернетические методы.

Подход к обучению математических моделей

 

Следует отметить, что существует два подхода отнесения статистических методов к Data Mining. Первый из них противопоставляет статистические методы и Data Mining, его сторонники считают классические статистические методы отдельным направлением анализа данных. Согласно второму подходу, статистические методы анализа являются частью математического инструментария Data Mining. Большинство авторитетных источников придерживается второго подхода.

 

В этой классификации различают две группы методов:

  • статистические методы, основанные на использовании усредненного накопленного опыта, который отражен в ретроспективных данных
  • кибернетические методы, включающие множество разнородных математических подходов

Недостаток такой классификации: и статистические, и кибернетические алгоритмы тем или иным образом опираются на сопоставление статистического опыта с результатами мониторинга текущей ситуации. Преимуществом такой классификации является ее удобство для интерпретации – она используется при описании математических средств современного подхода к извлечению знаний из массивов исходных наблюдений (оперативных и ретроспективных), т.е. в задачах Data Mining.

 

Статистические методы Data Mining

 

В эти методы представляют собой четыре взаимосвязанных раздела:

  • предварительный анализ природы статистических данных (проверка гипотез стационарности, нормальности, независимости, однородности, оценка вида функции распределения, ее параметров и т.п.);
  • выявление связей и закономерностей (линейный и нелинейный регрессионный анализ, корреляционный анализ и др.);
  • многомерный статистический анализ (линейный и нелинейный дискриминантный анализ, кластерный анализ, компонентный анализ, факторный анализ и др.);
  • динамические модели и прогноз на основе временных рядов.

Арсенал статистических методов Data Mining классифицирован на четыре группы методов:

5 - Обзор методов Data Mining

Кибернетические методы Data Mining

 

Второе направление Data Mining – это множество подходов, объединенных идеей компьютерной математики и использования теории искусственного интеллекта.

6 1 - Обзор методов Data Mining

Классификация по задачам

 

Методы Data Mining также можно классифицировать по задачам Data Mining. В соответствии с такой классификацией выделяем две группы. Первая из них – это подразделение методов Data Mining на решающие задачи сегментации (т.е. задачи классификации и кластеризации) и задачи прогнозирования. В соответствии со второй классификацией по задачам методы Data Mining могут быть направлены на получение описательных и прогнозирующих результатов.

 

Описательные методы

 

Описательные методы служат для нахождения шаблонов или образцов, описывающих данные, которые поддаются интерпретации с точки зрения аналитика.

7 1 - Обзор методов Data Mining

Прогнозирующие методы

 

Прогнозирующие методы используют значения одних переменных для предсказания/прогнозирования неизвестных (пропущенных) или будущих значений других (целевых) переменных.

8 1 - Обзор методов Data Mining

Узнайте о других решениях

Методы анализа

hrtech 11 300x225 - Обзор методов Data Mining

51 пример HR-метрик

Загрузить программу ВІ Демонстрации решений Далеко не все показатели равны по своей значимости. Сегодня мы

Технологии аналитики

screenshot 4 5 300x224 - Обзор методов Data Mining

Мониторинг деловой активности

Мониторинг эффективности бизнеса Визуализируйте здоровье ваших бизнес-процессов в режиме реального времени   Загрузить программу ВІ

1293629 300x150 - Обзор методов Data Mining

Предвидим, что будет дальше

Загрузить программу ВІ Демонстрации решений Вместе с мощной прогнозирующей аналитикой Spotfire   Прогнозная аналитика использует

main 0 2 300x225 - Обзор методов Data Mining

Сбор данных

Обработка данных с помощью Spotfire Иммерсивная, встроенная, интеллектуальная подготовка данных. Все встроено.   Загрузить программу ВІ

Напишите нам

и мы ответим в течении часа

support@asu-analitika.ru

maxresdefault 66x66 - Обзор методов Data Mining
Зачем вообще нужны системы бизнес-аналитики

Загрузить программу ВІ Демонстрации решений Визуализация в бизнес-аналитике очень важна. Например, концепт этих графиков отрисован …

sap 7 66x66 - Обзор методов Data Mining
Начало работы с Tibco Spotfire Desktop

Загрузить программу ВІ Демонстрации решений Для успешной работы с продуктами Tibco Spotfire, Вам потребуется 10 …

131 66x66 - Обзор методов Data Mining
Gartner BI Magic Quadrant 2019: обзор лидеров рынка

Загрузить программу ВІ Демонстрации решений В январе Gartner традиционно выпускает масштабное исследование рынка систем бизнес-аналитики, …

prodvizhenie 1200x350 66x66 - Обзор методов Data Mining
Что выбрать Spotfire,Tableau,Microsoft BI или Qlik Sense?

Конечно, Tableau и Spotfire предлагают унифицированное представление данных, но не настолько эффективно, как QlikSense. QlikSense …

img243 66x66 - Обзор методов Data Mining
Видео демонстрации и обучение

Видео материалы по Tibco Spotfire Лучше один раз увидеть ! Обучающие видео, презентации и комментарии …

quienes somos 03 66x66 - Обзор методов Data Mining
Цены на продукты

Загрузите бесплатно Демонстрация Мы подготовили для Вас ориентировочные цены на различные продукты и пакеты программ, …

active icon pdf - Обзор методов Data Mining
Наша компания
active icon pdf - Обзор методов Data Mining
Tibco Spotfire

Несколько видео о наших продуктах

085 - Обзор методов Data Mining
Проиграть видео
Презентация аналитической платформы Tibco Spotfire
106 - Обзор методов Data Mining
Проиграть видео
Отличительные особенности Tibco Spotfire 10X
1 11 - Обзор методов Data Mining
Проиграть видео
Как аналитика данных помогает менеджерам компании

This Is A Custom Widget

This Sliding Bar can be switched on or off in theme options, and can take any widget you throw at it or even fill it with your custom HTML Code. Its perfect for grabbing the attention of your viewers. Choose between 1, 2, 3 or 4 columns, set the background color, widget divider color, activate transparency, a top border or fully disable it on desktop and mobile.