Обсуждение:Задача предсказания отклика клиентов ОТП Банка (конкурс)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск

Nvm (Обсуждение | вклад)
(Новая: Задача представляется интересной и очень удачной в качестве предмета для конкурса. Только есть неко...)
К следующему изменению →

Версия 09:55, 28 июля 2011

Задача представляется интересной и очень удачной в качестве предмета для конкурса.

Только есть некоторая неоднозначность в критерии оценивания результата, т.е. в вычислении площади под ROC-кривой. В условиях конкурса не сказано, что все оценки вероятности на объектах выборки должны быть различными. В частности, допустимо использовать только два значения: например 0 и 1. В этом случае ROC-кривая состоит всего из трёх точек (две из которых фиксированы - крайние, т.е. "информативная" точка всего одна). Поскольку "кривая" на самом деле дискретна, естественно соединить её точки ломаной, т.е площадь вычислять через трапеции. Но в алгоритме, опубликованном здесь, площадь вычисляется через аппроксимацию прямоугольниками. Для описанного примера (только двух различных оценок вероятности) результат по трапециям и по прямоугольникам кардинально различается. Собственно, вопрос в том, какой из них будет использован.

Кроме того, алгоритм предполагает вообще строгую упорядоченность точек по оценкам вероятности, и для других случаев приходится домысливать возможные варианты.

Желательно было бы уточнить метод вычисления площади под ROC-кривой для "вырожденных" случаев, достаточно для случая всего двух разных значений оценки.

Причём речь не идёт о "разумности" использования в данном конкурсе таких "вырожденных" методов. Скорее всего, при прочих равных, такие методы дадут худшие результаты. Но эти методы не запрещены правилами, и вопрос имеет смысл.

В.М. Неделько 13:55, 28 июля 2011 (MSD)
Личные инструменты