Методы и стадии Data Mining. Задачи Data Mining. Визуализация данных.
Все методы Data Mining подразделяются на две большие группы по принципу работы с исходными обучающими данными. В этой классификации верхний уровень определяется на основании того, сохраняются ли данные после Data Mining либо они дистиллируются для последующего использования.
1. Непосредственное использование данных, или сохранение данных.
В этом случае исходные данные хранятся в явном детализированном виде и непосредственно используются на стадиях прогностического моделирования и/или анализа исключений. Проблема этой группы методов - при их использовании могут возникнуть сложности анализа сверхбольших баз данных.
Методы этой группы: кластерный анализ, метод ближайшего соседа, метод k-ближайшего соседа, рассуждение по аналогии.
2. Выявление и использование формализованных закономерностей, или дистилляция шаблонов.
При технологии дистилляции шаблонов один образец (шаблон) информации извлекается из исходных данных и преобразуется в некие формальные конструкции, вид которых зависит от используемого метода Data Mining. Этот процесс выполняется на стадии свободного поиска, у первой же группы методов данная стадия в принципе отсутствует. На стадиях прогностического моделирования и анализа исключений используются результаты стадии свободного поиска, они значительно компактнее самих баз данных. Напомним, что конструкции этих моделей могут быть трактуемыми аналитиком либо нетрактуемыми ("черными ящиками").
|
|
Статистические методы Data mining
В эти методы представляют собой четыре взаимосвязанных раздела:
· предварительный анализ природы статистических данных (проверка гипотез стационарности, нормальности, независимости, однородности, оценка вида функции распределения, ее параметров и т.п.);
· выявление связей и закономерностей (линейный и нелинейный регрессионный анализ, корреляционный анализ и др.);
· многомерный статистический анализ (линейный и нелинейный дискриминантный анализ, кластерный анализ, компонентный анализ, факторный анализ и др.);
· динамические модели и прогноз на основе временных рядов.
Арсенал статистических методов Data Mining классифицирован на четыре группы методов:
1. Дескриптивный анализ и описание исходных данных.
2. Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ).
3. Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.).
4. Анализ временных рядов (динамические модели и прогнозирование).
Кибернетические методы Data Mining
Второе направление Data Mining - это множество подходов, объединенных идеей компьютерной математики и использования теории искусственного интеллекта.
|
|
К этой группе относятся такие методы:
· искусственные нейронные сети (распознавание, кластеризация, прогноз);
· эволюционное программирование (в т.ч. алгоритмы метода группового учета аргументов);
· генетические алгоритмы (оптимизация);
· ассоциативная память (поиск аналогов, прототипов);
· нечеткая логика;
· деревья решений;
· системы обработки экспертных знаний.
Методы Data Mining также можно классифицировать по задачам Data Mining.
В соответствии с такой классификацией выделяем две группы. Первая из них - это подразделение методов Data Mining на решающие задачи сегментации (т.е. задачи классификации и кластеризации) и задачи прогнозирования.
В соответствии со второй классификацией по задачам методы Data Mining могут быть направлены на получение описательных и прогнозирующих результатов.
Описательные методы служат для нахождения шаблонов или образцов, описывающих данные, которые поддаются интерпретации с точки зрения аналитика.
К методам, направленным на получение описательных результатов, относятся итеративные методы кластерного анализа, в том числе: алгоритм k-средних, k-медианы, иерархические методы кластерного анализа, самоорганизующиеся карты Кохонена, методы кросс-табличной визуализации, различные методы визуализации и другие.
|
|
Прогнозирующие методы используют значения одних переменных для предсказания/прогнозирования неизвестных (пропущенных) или будущих значений других (целевых) переменных.
К методам, направленным на получение прогнозирующих результатов, относятся такие методы: нейронные сети, деревья решений, линейная регрессия, метод ближайшего соседа, метод опорных векторов и др.
Задачи Data Mining
Задачи (tasks) Data Mining иногда называют закономерностями (regularity) или техниками (techniques).
Единого мнения относительно того, какие задачи следует относить к Data Mining, нет. Большинство авторитетных источников перечисляют следующие: классификация, кластеризация, прогнозирование, ассоциация, визуализация, анализ и обнаружение отклонений, оценивание, анализ связей, подведение итогов.
Визуализация данных – это представление информации с помощью изображений, графиков, схем, таблиц и диаграмм. Ценность визуализации в том, что она часто позволяет наиболее наглядно и лаконично выявить и показать содержащуюся в данных информацию, потому что на картинке можно сразу продемонстрировать то, что в вербальном эквиваленте займет не один абзац.
|
|
В разработке способов визуального представления данных в равной мере принимают участие ИТ-специалисты и дизайнеры, так как от дизайна во многом зависит, насколько понятной и «читаемой» будет визуализация.
С помощью визуализации данных решаются самые разные задачи.
Во-первых, это важный инструмент на начальных этапах анализа данных. Самые простые графики позволяют быстро обнаружить в данных закономерности, тенденции или аномалии, на которые будет ориентироваться аналитик при дальнейшей работе с данными. Аналогичным образом журналист, используя графики при первичном просмотре данных, может сформулировать для себя вопросы, из которых в дальнейшем можно вывести сюжет для очередного материала.
Во-вторых, визуализации часто играют важную роль в представлении конечных результатов анализа. Это могут быть статичные графики, иллюстрирующие тенденции; интерактивные визуализации, позволяющие пользователям самостоятельно исследовать данные; а также инфографика (статическая или интерактивная), наглядным образом представляющая основанную на данных историю.
Важная задача визуализации в том, чтобы в одной картинке с ограниченным числом физических измерений (как правило, двухмерной) показать множество содержащихся в данных измерений и взаимосвязь между ними.
Вопросы для самоконтроля
1. Как оределяем Коэффициент корреляции Пирсона?
Дата добавления: 2019-02-12; просмотров: 686; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!