CRISP-DM

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Добавил картинку, сделал текст более литературным)
(Основные этапы: Добавлено лирическое описание процесса)
Строка 12: Строка 12:
[[Изображение:Crisp-dmchart.gif]]
[[Изображение:Crisp-dmchart.gif]]
 +
 +
Перемещение вперед и назад между фазами — обычное дело. В зависимости от результата фазы или её подзадачи, принимается решение в какую фазу переходить дальше. Стрелками обозначены наиболее важные и частые переходы между фазами.
 +
 +
Внешний круг символизирует циклическую природу [[Data Mining | анализа данных]]. Процесс анализа данных продолжается и после развертывания решения. Знания, полученные во время процесса, могут породить новые более тонкие вопросы бизнеса. Последующий процесс анализа данных выгодно проводить используя знания полученные ранее. <ref>http://www.crisp-dm.org [http://www.crisp-dm.org]</ref>
==История==
==История==

Версия 19:17, 3 июня 2011

CRISP-DM (CRoss Industry Standard Process for Data Mining) наиболее распространенная и популярная методология ведения проектов интеллектуального анализа данных[1]. Опросы проводившиеся в 2002, 2004 и 2007 годах, показывают что эта методология часто применяется исследователями данных.[1] [1] [1]

Содержание

Основные этапы

CRISP-DM разбивает процесс анализа данных на шесть основных этапов[1]:

  • Понимание бизнеса (Business Understanding)
  • Понимание данных (Data Understanding)
  • Подготовка данных (Data Preparation)
  • Моделирование (Modeling)
  • Оценка (Evaluation)
  • Развертывание (Deployment)

Изображение:Crisp-dmchart.gif

Перемещение вперед и назад между фазами — обычное дело. В зависимости от результата фазы или её подзадачи, принимается решение в какую фазу переходить дальше. Стрелками обозначены наиболее важные и частые переходы между фазами.

Внешний круг символизирует циклическую природу анализа данных. Процесс анализа данных продолжается и после развертывания решения. Знания, полученные во время процесса, могут породить новые более тонкие вопросы бизнеса. Последующий процесс анализа данных выгодно проводить используя знания полученные ранее. [1]

История

Идея CRISP-DM зародилась в 1996. В 1997 была начата разработка проекта в Европейском Содружестве под эгидой фонда ESPRIT (European Strategic Program on Research in Information Technology). Проект возглавили четыре компании: ISL, NCR Corporation, Daimler-Benz и OHRA.

Эти компании объединили свой опыт в проекте. ISL впоследствии была поглощена SPSS Inc. на тот момент имела программный продукт для анализа данных Clementine. Компьютерный гигант NCR Corporation породивший Teradata — хранилище данных, имел штат консультантов и собственное программное обеспечение по анализу данных. В Daimler-Benz была большая команда интеллектуального анализа данных для удовлетворения нужд собственного бизнеса. OHRA, страховая компания начала исследовать потенциал интеллектуального анализа данных.

Первая версия методологии была выпущена CRISP-DM 1.0 в 1999.

CRISP-DM 2.0

В июле 2006 консорциум анонсировал желание начать работу над второй версией CRISP-DM. 26 сентября 2006, инициативная группа CRISP-DM собрались для обсуждения потенциальных улучшений в CRISP-DM 2.0 и последующего плана работ. Однако, этим начинаниям не суждено было быть завершенными. С начала 2007 года инициативная группа больше не собиралась, вебсайт CRISP не обновлялся и не появлялось какой-либо новой информации.

Преимущества

Сноски

Внешние ссылки

Личные инструменты