Группировка категорий и сегментация признаков в логистической регрессии (пример)
Материал из MachineLearning.
Группировка категорий и сегментация признаков — методы, позволяющие упростить и одновременно улучшить регрессионную модель. В частности, группировка категорий позволяет понять взаимосвязь значений признаков и использовать линейные модели для нелинейных зависимостей.
Содержание |
Постановка задачи
Дана задача кредитного скоринга. Регрессионная модель - логистическая регрессия. Требуется найти множество активных признаков. Затем сегментировать линейные признаки, сгруппировать номинальные и ординарные. При этом надо применить как новые алгоритмы, так и классические. Сравнить оба подхода, вычислить статистическую значимость производных признаков.
Описание данных
Используются реальные данные (GERMAN_UIC) о выдаче или не выдаче банком кредитов. Всего приведены 24 признака для 1000 человек и информация о том, выдан ли впоследствии кредит. Формально данные можно представить следующим образом:
Набор данных:
Целевая переменная:
Модель:
где
Индексы:
- разбиение на обучающую и контрольную выборки.
- индексы признаков.
Описание алгоритмов
Сначала находится множество активных признаков. Для этого решается задача максимизации правдоподобия, или эквивалентно - минимизация его логарифма, взятого с противополжным знаком
Здесь под строкой подразумевается строка из условия, но с удаленными координатами, номера которых не входят во множество индексов
. Вектор
соответствующей длины. Множество активных признаков -
. Тогда задача нахождения множества активных признаков и соответствующего им вектора весов записывается в виде
Для решения задачи поиска множества активных признаков предлагается следующий подход. Все линейные признаки заведомо считаем активными. В нашем случае их всего 3 и впоследствии мы их будем сегментировать. Далее используем простой жадный алгоритм, удаляющий на каждом шаге признак, без которого значение правдоподбия наиболее оптимально. В нашем эксперименте будем считать, что удалить нам надо около половины всех признаков.
Активные признаки |
---|
empty |
Вычислительный эксперимент
Выполнение алгоритма
Визуализация результатов
Исследование свойств алгоритма
Исходный код
Смотри также
Литература
- Siddiqi N. Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring. John Wiley & Sons, Inc. 2006
- Bishop C. Pattern Recognition And Machine Learning. Springer. 2006.
![]() | Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |