Начальные этапы KDD. ETL. Средства очистки и трансформации данных.



 

В настоящее время интенсивно разрабатывались методы автоматического извлечения знаний из накопленных фактов, хранящихся в различных базах данных. Для анализа информации, накопленной в современных базах данных, методы анализа должны быть эффективными, т.е. простыми в использовании, обладать значительным уровнем масштабируемости и определенным автоматизмом. Это концепция, зародившаяся в 1989 г., лежит в основе двух современных технологий анализа данных DataMining и KDD – KnowledgeDiscoveryinDatabases, которые на русский язык переводятся как «добыча (раскопка) данных» и « «извлечение знаний из баз данных».

 

KnowledgeDiscoveryinDatabase(KDD) — Представляет собой технологию извлечение данных из баз данных. Описывает не конкретный алгоритм или математический аппарат, а последовательность действий, которую необходимо выполнить для извлечения знаний.

 

KDD включает в себя этапы:

1)Подготовка исходного набора данных. Этот этап заключается в подготовке набора данных, в том числе из различных источников, выбора значимых параметров и т.д. Для этого должны быть различные инструменты доступа к различным источникам данных – конверторы и т.п..

2)Предобработка (очистка) данных. Реальные данные для анализа редко бывают хорошего качества. Поэтому для эффективного применения методов DataMining следует обратить серьезное внимание на вопросы предобработки данных. Данные могут содержать пропуски, шумы, аномальные значения и т.д. Кроме того, данные могут быть противоречивы, избыточны, недостаточны, содержать ошибки и т.д. В некоторых задачах требуется дополнить данные некоторой априорной информацией. Ошибочно предполагать, что если подать данные на вход системы в существующем виде, то на выходе будут получены полезные знания. Входные данные должны быть качественны и корректны.

3)Трансформация, нормализация данных. Этот шаг необходим для тех методов, которые требуют, чтобы исходные данные были в каком-то определенном виде. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычисление агрегируемых показателей. К задачам трансформации данных относятся: скользящее окно, приведение типов, выделение временных интервалов, преобразование непрерывных значений в дискретные и наоборот, сортировка, группировка и прочее.

4)DataMining. На этом этапе строятся модели, в которых применяются различные алгоритмы для нахождения знаний. Это нейронные сети, деревья решений, алгоритмы кластеризации и установления ассоциаций и т.д.

5)Постобработка (интерпретация) данных. Интерпретация моделей и применение полученных знаний в бизнес приложениях. Для оценки качества полученной модели нужно использовать как формальные методы, так и знания аналитика.Именно аналитик может сказать, насколько применима полученная модель к реальным данным.

 

ETL, (extraction, transformation, loading) - комплекс методов, реализующих процесс переноса исходных данных из различных источников в аналитическое приложение или поддерживающее его хранилище данных.

 

Независимо от особенностей построения и функционирования ETL-система должна обеспечивать выполнение трех основных этапов процесса переноса данных (ETL-процесса).

1)Извлечение данных. На этом этапе данные извлекаются из одного или нескольких источников и подготавливаются к преобразованию. Следует отметить, что для корректного представления данных после их загрузки в ХД(хранилище данных) из источников должны извлекаться не только сами данные, но и информация, описывающая их структуру, из которой будут сформированы метаданные для хранилища.

2)Преобразование данных. Производятся преобразование форматов и кодировки данных, а также их обобщение и очистка.

3)Загрузка данных — запись преобразованных данных в соответствующую систему хранения.

35.Классификация метода предобработки и очистки данных.

36.Общая характеристика методов и моделей управления содержанием и сроками проекта.


Дата добавления: 2018-04-15; просмотров: 966; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!