CRISP-DM/Modeling

Материал из MachineLearning.

Перейти к: навигация, поиск

В данной фазе выбираются различные модели и находятся их оптимальные параметры. Обычно для одной проблемы анализа данных существует сразу несколько моделей. Некоторые из них имеют специфические требования, относящиеся к форме представления данных. Поэтому часто важно вернуться к фазе подготовки данных.

Содержание

Выбрать методику моделирования (Select modeling technique)

Выбрать средство реализации моделирования. Так как на более высоком уровне подход к моделированию уже был выбран в фазе понимания данных, то в данной задаче подразумевается конкретика реализации выбранного подхода, например построение решающего дерева алгоритмом C4.5 или нейронной сети методом обратного распространения ошибки. Конкретизировать средства реализации моделирования для всех выбранных подходов, если их несколько.

Выбранное средство реализации моделирования (Modeling technique)

Документ, содержащий описание выбранного средства моделирования.

Предположения модели (Modeling assumption)

Документ содержащий все специфические предположения о данных, при условии которых работает выбранное средство реализации модели, например: нет пустых значений, все параметры распределены равномерно и другие.

Сделать тесты для модели (Generate test design)

Перед тем, как строить модель, необходимо разработать метод валидации построенной модели. Например, в задачах обучения с учителем, например, классификация, часто используются такой метод оценки качества модели, как доля ошибок. Поэтому часто разделяют выборку на обучающую и контрольную, строят модель на обучающей выборке и оценивают ее качество на контрольной.

Дизайн тестов (Test design)

Описать предполагаемый план обучения, тестирования и оценки качества модели. Основная задача - решить, как разделять выборку на обучающую, контрольную и валидационную.

Построить модель (Build model)

Запустите инструмент моделирования на подготовленном наборе данных для создания одной или нескольких моделей.

Настройка параметров (Parameter settings)

В любом инструменте моделирования часто очень большое число параметров, которые необходимо настраивать. Перечислите параметры и их выбранные значения с обоснованием выбора настройки параметров.

Модели (Models)

Существуют несколько моделей, полученных инструментом анализа данных.

Описание модели (Model description)

Опишите окончательный вариант модели. Предоставьте отчет с интерпретацией моделей и задокументируйте все встретившиеся трудности с их значением.

Оценить модель (Assess model)

Теперь модель должна оценена, чтобы была уверенность, что она отвечает критерию успеха интеллектуального анализа данных и проходит необходимые критерии испытаний. Это чисто техническая оценка, основанная на результатах моделирования задач.

Оценивание модели (Model assessment)

Собираем воедино результат задачи, создаем список качества порожденных моделей (например, с точки зрения точности) и оцениваем их качесто по отношению друг к другу.

Пересмотр значений параметров (Revised parameters settings)

В соответствии с оценкой модели, пересмотрите параметры и настройте их для следующего запуска задачи "Построение Модели". Повторяйте построение модели и оценку до тех пор, пока не найдете лучшую модель.

Ссылки

Личные инструменты