Коэффициент разнообразия
Материал из MachineLearning.
|
Коэффициент разнообразия (shattering coefficient) множества бинарных функций на выборке объектов — это мощность множества всевозможных -мерных бинарных векторов вида :
Иногда также говорят о мощности проекции множества функций на выборку [1].
В некоторых работах переводится на русский язык как коэффициент дробления [1]. Shatter в буквальном переводе — «разбивать на мелкие кусочки, вдребезги».
В исходных работах Вапника и Червоненкиса (на русском языке) вводилось эквивалентное понятие индекс системы событий[1][1]. Под «событием» понимается множество объектов , взаимно однозначно соотвествующее функции , а под «системой событий» понимается множество .
Очевидно, .
Коэффициент разнообразия характеризует «богатство», «выразительные возможности» множества функций .
Понятия, связанные с коэффициентом разнообразия
Максимальное значение коэффициента разнообразия, достигаемое на всевозможных выборках длины , называется функцией роста множества :
С функцией роста тесно связано понятие размерности Вапника–Червоненкиса (VC-dimension). В исходных работах она называлась ёмкостью множества .
Разнообразие семейства классификаторов
Пусть — конечное множество номеров (имён, меток) классов. Существует неизвестная целевая зависимость — отображение . Пусть — семейство классификаторов.
Коэффициент разнообразия множества классификаторов — это коэффициент разнообразия множества функций
В случае классификации на два класса коэффициент разнообразия множества классификаторов — это число всевозможных дихотомий выборки (способов разделить выборку на два класса), реализуемых всевозможными классификаторами .
Применение
Коэффициент разнообразия используется в оценках обобщающей способности, зависящих от данных.