Зима искусственного интеллекта

Материал из MachineLearning.

(Различия между версиями)

Версия 14:51, 17 июня 2026

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%97%D0%B8%D0%BC%D0%B0_%D0%B8%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D0%B0»

@@ Строка 1: / Строка 1: @@
-# Перекрёстная проверка (кросс-валидация)
-**Перекрёстная проверка**, или **кросс-валидация** (от англ. *cross-validation*), — это метод оценки обобщающей способности и стабильности статистических моделей и алгоритмов машинного обучения. Основная идея заключается в многократном разбиении доступной выборки данных на две части: **обучающую** (*training set*) и **проверочную** (*validation set* или *test set*). Модель строится (обучается) на обучающей части, а затем её качество оценивается на проверочной части, которая не участвовала в построении модели. Такой подход позволяет получить более реалистичную оценку того, как модель будет работать на новых, ранее не виденных данных, и является ключевым инструментом для борьбы с **переобучением** (*overfitting*) .
-## Определение и основная мотивация
-В статистике и машинном обучении главной целью часто является не простое описание имеющихся данных, а построение модели, способной делать точные прогнозы для новых наблюдений. Однако, если модель слишком сложна, она может «запомнить» шум и случайные особенности обучающей выборки, что приведёт к отличным показателям на этих данных, но к плохим результатам на новых. Это явление и есть переобучение .
-Перекрёстная проверка решает эту проблему, имитируя наличие новых данных. Вместо того чтобы оценивать модель на тех же данных, на которых она обучалась (что даёт смещённую, завышенную оценку), кросс-валидация использует часть данных исключительно для проверки. Процесс многократно повторяется, и результаты усредняются, что даёт более стабильную и надёжную оценку **ошибки обобщения** (*generalization error*) — ожидаемой ошибки модели на новых данных .
-## История
-Идея разделения данных и перекрёстной проверки имеет глубокие исторические корни, уходящие в область психометрики и статистики первой половины XX века.
-**Ранние работы.** Проблема завышения множественного коэффициента корреляции *R* при его вычислении на той же выборке, где были получены регрессионные веса, была осознана уже в 1930-х годах. Сельмер Ларсон в 1931 году отметил, что корреляция, полученная на исходной выборке, будет «обманчиво велика», и предложил корректирующие формулы .
-**Появление метода разделения данных.** Термин «перекрёстная проверка» (cross-validation) и метод, как отдельный подход, начали формироваться в 1950-х годах. На симпозиуме по психометрике в 1950 году Чарльз Мозье (Charles Mosier) фактически предложил *k*-кратную кросс-валидацию с *k*=2, подчеркнув необходимость проверки эффективности предикторов на независимой выборке . Эдвард Кьюртон (Edward Cureton) в том же году прямо указал на проблему переобучения: метод наименьших квадратов «подгоняет ошибки так же, как и систематические тренды в данных» .
-**Метод «складного ножа» (Jackknife).** Важным предшественником современных методов является **джекнайф** (*jackknife*). Он был предложен Морисом Кенуйем (Maurice Quen

Зима искусственного интеллекта

Материал из MachineLearning.

Версия 14:51, 17 июня 2026

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты