Группировка категорий и сегментация признаков в логистической регрессии (пример)

Материал из MachineLearning.

(Различия между версиями)

Версия 22:03, 24 октября 2010

Группировка категорий и сегментация признаков — методы, позволяющие упростить и одновременно улучшить регрессионную модель. В частности, группировка категорий позволяет понять взаимосвязь значений признаков и использовать линейные модели для нелинейных зависимостей.

Постановка задачи

Дана задача кредитного скоринга. Регрессионная модель - логистическая регрессия.Требуется найти множество активных признаков. Затем сегментировать линейные признаки, сгруппировать номинальные и ординарные. При этом надо применить как новые алгоритмы, так и классические. Сравнить оба подхода, вычислить статистическую значимость производных признаков.

Описание данных

Есть набор данных: $\mathbf{x}\subseteq\mathbb{R}^{n},\ y\subseteq\mathbb{R}$

$\mathbf{D} = \{(\mathbf{x}^{1},y^{1}),\ldots,(\mathbf{x}^{i},y^{i}),\ldots,(\mathbf{x}^{m},y^{m})\}$

Матрица плана: $X = (\mathbf{x}_{1},\ldots,\mathbf{x}_{n})$

Целевая переменная: $\mathbf{y} = (y^{1},\ldots,y^{m})^{T}$

Модель: $y_{i} = \sigma(\mathbf{w})$ где $\sigma(\mathbf{w}) = \frac{1}{1 + \exp(-\mathbf{w}^{T}\mathbf{x}_{i})}$

Индексы: $\{1,\ldots,m\} = \mathbf{L}\cup\mathbf{T}$ - разбиение на обучающую и контрольную выборки. $\{1,\ldots,n\} = \mathbf{F}$ - индексы признаков.

Описание алгоритмов

Сначала находится множество активных признаков. Для этого решается задача максимизации правдоподобия, или эквивалентно - минимзация его логарифма, взятого с противополжным знаком

$-\ln(P(\mathbf{y}|\mathbf{w})) = - \sum_{i\subseteq\mathbf{L}}(y^{i}\ln(\sigma(\mathbf{w}^{T}x_{i})) + (1 - y^{i})\ln(1 - \sigma(\mathbf{w}^{T}x_{i}))) = S(\mathbf{w})$

Множество активных признаков - $\mathbf{A}\subseteq\mathbf{F}$ . Тогда $\mathbf{A} = argmin(S_{\mathbf{A}}(\mathbf{w}_{\mathbf{A}}))$

Вычислительный эксперимент

Выполнение алгоритма

Визуализация результатов

Исследование свойств алгоритма

Исходный код

Смотри также

Литература

Siddiqi N. Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring. John Wiley & Sons, Inc. 2006
Bishop C. Pattern Recognition And Machine Learning. Springer. 2006.

Данная статья является непроверенным учебным заданием.

Студент: Участник:Никита Животовский

Преподаватель: Участник:В.В. Стрижов

Срок: ?

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%93%D1%80%D1%83%D0%BF%D0%BF%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0_%D0%BA%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D0%B9_%D0%B8_%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%BF%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%BE%D0%B2_%D0%B2_%D0%BB%D0%BE%D0%B3%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B9_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D0%B8_%28%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%29»

Категории: Непроверенные учебные задания | Учебные материалы

@@ Строка 22: / Строка 22: @@
 Сначала находится множество активных признаков. Для этого решается задача максимизации правдоподобия, или эквивалентно - минимзация его логарифма, взятого с противополжным знаком
-<tex>-\ln(\mathbf{y}|\mathbf{w}) = - \sum_{i\subseteq\mathbf{L}}(y^{i}\ln(\sigma(\mathbf{w}^{T}x_{i})) + (1 - y^{i})\ln(1 - \sigma(\mathbf{w}^{T}x_{i}))) = S(\mathbf{w})</tex>
+<tex>-\ln(P(\mathbf{y}|\mathbf{w})) = - \sum_{i\subseteq\mathbf{L}}(y^{i}\ln(\sigma(\mathbf{w}^{T}x_{i})) + (1 - y^{i})\ln(1 - \sigma(\mathbf{w}^{T}x_{i}))) = S(\mathbf{w})</tex>
 Множество активных признаков - <tex>\mathbf{A}\subseteq\mathbf{F} </tex>. Тогда <tex>\mathbf{A} = argmin(S_{\mathbf{A}}(\mathbf{w}_{\mathbf{A}})) </tex>