Эффективная размерность выборки

Материал из MachineLearning.

Эффективная размерность выборки — число независимых направлений изменения данных, достаточное для их приближённого описания с заданной точностью.

Понятие применяется при снижении размерности, анализе спектра данных, выборе числа главных компонент, подавлении шума и построении компактных векторных представлений.

Пусть каждый объект описывается $n$ числовыми признаками. Формально объекты принадлежат пространству размерности $n$ , однако признаки могут быть зависимыми или почти зависимыми. В этом случае существенная часть изменчивости выборки сосредоточена в подпространстве меньшей размерности $m$ .

Эффективная размерность не обязана совпадать с числом исходных признаков или рангом матрицы данных. Она зависит от допустимой ошибки, масштаба признаков, объёма выборки, уровня шума и выбранного способа измерения качества приближения.

Содержание

1 Постановка задачи
2 Предварительная обработка данных
- 2.1 Центрирование
- 2.2 Стандартизация
- 2.3 Обучающая и тестовая выборки
3 Метод главных компонент
4 Ошибка низкорангового приближения
5 Относительная ошибка реконструкции
6 Определение эффективной размерности
7 Доля объяснённой дисперсии
8 Алгебраический ранг и эффективная размерность
9 Ограничение, связанное с объёмом выборки
10 Спектр собственных значений
- 10.1 Быстро убывающий спектр
- 10.2 Медленно убывающий спектр
- 10.3 Почти равномерный спектр
11 Критерий крутого склона
12 Выбор размерности по порогу ошибки
13 Выбор по качеству последующей задачи
14 Перекрёстная проверка реконструкции
15 Параллельный анализ
16 Устойчивая размерность
17 Размерность участия
18 Энтропийная эффективная размерность
19 Неоднозначность термина
20 Пример с коррелированными признаками
21 Пример вычисления
22 Связь с линейным автокодировщиком
23 Линейная и нелинейная размерность
24 Размерность и шум
25 Зависимость от масштаба признаков
26 Зависимость от распределения выборки
27 Пропущенные значения
28 Выбросы
29 Интерпретация компонент
30 Применения
- 30.1 Сжатие данных
- 30.2 Визуализация
- 30.3 Подавление шума
- 30.4 Ускорение обучения
- 30.5 Анализ избыточности признаков
- 30.6 Обнаружение изменений
31 Ошибка реконструкции и потеря информации
32 Типичные ошибки
- 32.1 Использование нецентрированных данных
- 32.2 Автоматическая стандартизация без анализа
- 32.3 Выбор размерности на тестовой выборке
- 32.4 Отождествление малых собственных значений с шумом
- 32.5 Отождествление ранга и эффективной размерности
- 32.6 Использование только графика излома
- 32.7 Игнорирование объёма выборки
- 32.8 Сравнение размерностей после разной предобработки
- 32.9 Неверное толкование объяснённой дисперсии
33 Практический протокол
34 Философская интерпретация
35 Заключение
36 См. также
37 Литература

Постановка задачи

Пусть дана выборка

$X^\ell=\{x_1,\ldots,x_\ell\},$

где каждый объект описывается $n$ числовыми признаками:

$x_i=(f_1(x_i),\ldots,f_n(x_i)).$

Матрица признаковых описаний имеет вид

$F=(f_{ij}),$

где

$f_{ij}=f_j(x_i),$

а размер матрицы равен $\ell\times n$ .

Требуется заменить исходные признаки новыми признаками

$g_1(x),\ldots,g_m(x),$

где

$m\leq n,$

так, чтобы по ним можно было достаточно точно восстановить исходные данные.

Матрица новых признаков обозначается через $G$ , а матрица восстановления — через $U$ . При линейном восстановлении

$\widehat F=GU^T.$

Качество приближения оценивается квадратом нормы Фробениуса:

$Q_m=\|F-GU^T\|_F^2.$

Эта величина равна сумме квадратов ошибок восстановления всех признаков всех объектов:

$Q_m= \sum_{i=1}^{\ell} \sum_{j=1}^{n} (f_{ij}-\widehat f_{ij})^2.$

Чем меньше $Q_m$ , тем больше информации исходной матрицы сохраняется в представлении размерности $m$ .

Предварительная обработка данных

Перед определением эффективной размерности необходимо решить, каким образом будут центрироваться и масштабироваться признаки.

Центрирование

Для каждого признака вычисляется среднее значение

$\mu_j= \frac{1}{\ell} \sum_{i=1}^{\ell}f_j(x_i).$

Затем исходный признак заменяется центрированным:

$\widetilde f_j(x_i)=f_j(x_i)-\mu_j.$

После центрирования среднее значение каждого столбца равно нулю.

Метод главных компонент обычно применяется именно к центрированной матрице. Без центрирования первая компонента может в значительной степени описывать положение облака объектов относительно начала координат, а не различия между объектами.

Стандартизация

Если признаки измеряются в несопоставимых единицах, их иногда дополнительно делят на стандартное отклонение:

$z_{ij}= \frac{f_j(x_i)-\mu_j}{\sigma_j}.$

После этого каждый признак имеет приблизительно единичную дисперсию.

Стандартизация существенно меняет задачу. Без неё признаки с большой числовой дисперсией получают больший вклад в спектр. После стандартизации все признаки получают сопоставимый исходный масштаб.

Не существует универсального правила, согласно которому стандартизация всегда необходима. Если физическая величина дисперсии имеет содержательный смысл, её искусственное выравнивание может быть нежелательным.

Обучающая и тестовая выборки

Средние значения, стандартные отклонения и другие параметры преобразования должны вычисляться только по обучающей выборке.

Если параметры предварительной обработки вычислены по всей совокупности до разделения данных, информация о тестовой части попадает в обучающий процесс.

Метод главных компонент

Метод главных компонент строит ортонормированный набор направлений

$u_1,\ldots,u_n,$

упорядоченных по убыванию дисперсии проекций данных.

Пусть центрированная матрица по-прежнему обозначается через $F$ . Рассмотрим матрицу

$C=F^TF.$

Она является симметричной и неотрицательно определённой. Поэтому у неё существуют неотрицательные собственные значения

$\lambda_1\geq\lambda_2\geq\ldots\geq\lambda_n\geq0$

и соответствующие ортонормированные собственные векторы

$u_1,\ldots,u_n.$

Вектор $u_1$ задаёт первое главное направление, вдоль которого изменчивость данных максимальна. Вектор $u_2$ задаёт максимальное направление среди направлений, ортогональных первому, и так далее.

Матрица первых $m$ направлений имеет вид

$U_m=(u_1,\ldots,u_m).$

Новые признаки вычисляются как проекции:

$G=FU_m.$

Реконструкция исходной матрицы равна

$\widehat F_m=GU_m^T.$

Следовательно,

$\widehat F_m=FU_mU_m^T.$

Матрица $U_mU_m^T$ задаёт ортогональную проекцию на подпространство первых $m$ главных компонент.

Ошибка низкорангового приближения

Согласно теореме Эккарта — Янга, приближение, построенное по первым $m$ сингулярным направлениям, минимизирует ошибку среди всех матриц ранга не выше $m$ .

Ошибка реконструкции равна сумме отброшенных собственных значений:

$Q_m= \|F-\widehat F_m\|_F^2 = \lambda_{m+1}+\ldots+\lambda_n.$

Полная энергия центрированной матрицы равна

$\|F\|_F^2= \lambda_1+\ldots+\lambda_n.$

Слово «энергия» в данном случае обозначает сумму квадратов всех элементов матрицы. После центрирования она пропорциональна суммарной дисперсии признаков.

Если используются все компоненты, то

$m=n$

и ошибка реконструкции равна нулю:

$Q_n=0.$

Если используется меньшее число компонент, часть изменчивости данных отбрасывается.

Относительная ошибка реконструкции

Абсолютное значение $Q_m$ зависит от масштаба данных. Поэтому обычно используется относительная ошибка:

$E_m= \frac{\|F-\widehat F_m\|_F^2} {\|F\|_F^2}.$

Через собственные значения она выражается формулой

$E_m= \frac{ \lambda_{m+1}+\ldots+\lambda_n }{ \lambda_1+\ldots+\lambda_n }.$

Величина $E_m$ показывает долю изменчивости данных, не объяснённую первыми $m$ компонентами.

Она обладает свойствами

$1\geq E_0\geq E_1\geq\ldots\geq E_n=0.$

Добавление новой компоненты не может увеличить ошибку реконструкции.

Определение эффективной размерности

Пусть задан допустимый уровень относительной ошибки

$\varepsilon>0.$

Эффективной размерностью при уровне точности $\varepsilon$ называется минимальное число компонент, для которого

$E_m\leq\varepsilon.$

Формально:

$d_{\rm eff}(\varepsilon)= \min\{m:E_m\leq\varepsilon\}.$

Например, если требуется сохранить данные с относительной ошибкой не более 0,05, выбирается минимальное $m$ , при котором первые компоненты сохраняют не менее 95 процентов суммарной изменчивости.

Эффективная размерность является функцией допустимой ошибки. Для одного и того же набора данных могут быть получены разные значения:

$d_{\rm eff}(0.01)$ ≥ $d_{\rm eff}(0.05)$ ≥ $d_{\rm eff}(0.10)$ .

Чем более строгая точность требуется, тем больше компонент необходимо сохранить.

Доля объяснённой дисперсии

Вместо остаточной ошибки часто используется накопленная доля объяснённой дисперсии:

$V_m= \frac{ \lambda_1+\ldots+\lambda_m }{ \lambda_1+\ldots+\lambda_n }.$

Между двумя критериями существует связь:

$V_m=1-E_m.$

Поэтому условие

$E_m\leq\varepsilon$

эквивалентно условию

$V_m\geq1-\varepsilon.$

Например, требование сохранить 95 процентов дисперсии означает

$V_m\geq0.95.$

Выбор порога 90, 95 или 99 процентов не является математическим законом. Он зависит от задачи, стоимости хранения, допустимого уровня шума и последующего применения представления.

Алгебраический ранг и эффективная размерность

Ранг матрицы определяется числом ненулевых сингулярных значений.

Если

$r={\rm rk}F,$

то

$\lambda_1\geq\ldots\geq\lambda_r>0$

$\lambda_{r+1}=\ldots=\lambda_n=0.$

В идеальных данных без шума ранг может отражать точное число независимых линейных факторов.

Однако даже слабый случайный шум обычно делает многие собственные значения положительными. Формальный ранг становится большим, хотя последние направления содержат почти исключительно шум.

Поэтому эффективная размерность устойчивее к малым возмущениям: слабые направления можно отбросить, допустив небольшую ошибку.

Пример:

$\lambda_1=100,$

$\lambda_2=40,$

$\lambda_3=10,$

а остальные 97 собственных значений равны 0,01.

Формальный ранг матрицы может быть равен 100. Однако первые три компоненты содержат почти всю изменчивость данных. Для практического описания эффективная размерность будет близка к трём.

Ограничение, связанное с объёмом выборки

После центрирования сумма строк матрицы данных равна нулю. Поэтому её ранг не может превышать

$\min(\ell-1,n).$

Если объектов значительно меньше, чем признаков, то число ненулевых выборочных компонент ограничено объёмом выборки.

Например, по 50 объектам нельзя надёжно оценить 1000 независимых направлений. Центрированная матрица будет иметь ранг не выше 49.

Это не означает, что истинная совокупность имеет размерность не более 49. Ограничение возникает из-за недостатка наблюдений.

Следовательно, малая выборочная размерность может отражать не структуру данных, а малый объём выборки.

Спектр собственных значений

Последовательность

$\lambda_1,\ldots,\lambda_n$

называют спектром матрицы данных или ковариационной матрицы.

Форма спектра позволяет судить о распределении изменчивости между направлениями.

Быстро убывающий спектр

Если первые несколько собственных значений значительно больше остальных, данные хорошо приближаются низкоразмерным линейным подпространством.

Пример:

$\lambda_1\gg\lambda_2\gg\lambda_3\gg\lambda_4.$

В этом случае небольшое число компонент сохраняет основную часть информации.

Медленно убывающий спектр

Если собственные значения уменьшаются постепенно, чёткой границы между информативными и неинформативными направлениями нет.

Тогда эффективная размерность сильно зависит от выбранного порога $\varepsilon$ .

Почти равномерный спектр

Если собственные значения близки друг к другу, изменчивость распределена по многим направлениям.

Снижение размерности методом главных компонент в таком случае неизбежно приводит к заметной потере информации.

Критерий крутого склона

Распространённый эвристический метод выбора числа компонент основан на поиске излома графика собственных значений.

На горизонтальной оси откладывается номер компоненты, а на вертикальной — значение $\lambda_j$ . Такой график называют графиком каменистой осыпи, или scree plot.

Ищется значение $m$ , после которого собственные значения начинают уменьшаться значительно медленнее.

Приближённо это можно записать как:

$\lambda_m-\lambda_{m+1} \gg{} \lambda_{m+1}-\lambda_{m+2}.$

Или через ошибку реконструкции:

$E_{m-1}-E_m \gg{} E_m-E_{m+1}.$

До точки излома каждая новая компонента существенно улучшает реконструкцию. После неё добавление компонент даёт сравнительно малый выигрыш.

Критерий крутого склона прост и нагляден, но субъективен. При плавном спектре разные исследователи могут выбрать разные точки.

Выбор размерности по порогу ошибки

Более формальный способ состоит в предварительном выборе допустимой ошибки.

Алгоритм:

Вычислить собственные значения.
Упорядочить их по убыванию.
Вычислить накопленную долю объяснённой дисперсии.
Найти минимальное $m$ , удовлетворяющее заданному порогу.

Пусть

$S=\lambda_1+\ldots+\lambda_n.$

Последовательно вычисляются значения

$V_m= \frac{\lambda_1+\ldots+\lambda_m}{S}.$

Выбирается первое $m$ , для которого

$V_m\geq V_{\rm min}.$

Параметр $V_{\rm min}$ задаётся исследователем.

Преимущество метода состоит в однозначности после выбора порога. Недостаток — сам порог остаётся внешним решением.

Выбор по качеству последующей задачи

Минимальная ошибка реконструкции не всегда совпадает с максимальным качеством классификации, регрессии или поиска.

Направление с небольшой дисперсией может содержать важную информацию о целевой переменной. Метод главных компонент способен отбросить это направление как малозначимое для общей реконструкции.

Поэтому в обучении с учителем размерность часто выбирают по качеству конечной модели.

Для каждого значения $m$ выполняется процедура:

Построить представление по первым $m$ компонентам.
Обучить целевую модель.
Оценить её качество по кросс-валидации.
Выбрать размерность с лучшим валидационным результатом.

В таком случае эффективная размерность определяется относительно конкретной задачи, а не только геометрии входных данных.

Перекрёстная проверка реконструкции

Если выбрать число компонент по ошибке на тех же данных, на которых строились компоненты, оценка может быть оптимистичной.

Более строгая схема:

Разделить объекты на обучающую и контрольную части.
Вычислить главные направления только по обучающим объектам.
Спроецировать и реконструировать контрольные объекты.
Измерить контрольную ошибку.
Повторить процедуру для разных $m$ .

Такой подход оценивает, насколько найденное подпространство переносится на новые объекты.

Если при увеличении $m$ обучающая ошибка продолжает уменьшаться, а контрольная почти не улучшается, дополнительные компоненты, вероятно, описывают шум конкретной выборки.

Параллельный анализ

Параллельный анализ сравнивает собственные значения реальных данных со спектром случайных матриц такого же размера.

Общая идея:

Построить несколько случайных наборов данных без содержательной зависимости между признаками.
Для каждого набора вычислить собственные значения.
Оценить типичные случайные значения для каждого номера компоненты.
Сохранить компоненты реальных данных, превосходящие случайный уровень.

Метод пытается отделить структуру от компонент, которые могли возникнуть только из-за конечного объёма выборки.

Результат зависит от модели случайных данных и способа их генерации.

Устойчивая размерность

Кроме порогового определения существуют непрерывные характеристики размерности.

Одна из них — устойчивая размерность:

$r_{\rm st}= \frac{\|F\|_F^2}{\|F\|_2^2}.$

Поскольку

$\|F\|_F^2= \lambda_1+\ldots+\lambda_n$

$\|F\|_2^2=\lambda_1,$

получаем

$r_{\rm st}= \frac{ \lambda_1+\ldots+\lambda_n }{ \lambda_1 }.$

Устойчивая размерность принимает значения от 1 до ранга матрицы.

Если вся изменчивость сосредоточена в одном направлении, то

$r_{\rm st}\approx1.$

Если $r$ собственных значений равны друг другу, то

$r_{\rm st}=r.$

Устойчивая размерность плавно реагирует на изменения спектра, но не задаёт непосредственно число компонент, необходимое для фиксированной ошибки.

Размерность участия

Другая спектральная характеристика определяется формулой

$r_{\rm part}= \frac{ (\lambda_1+\ldots+\lambda_n)^2 }{ \lambda_1^2+\ldots+\lambda_n^2 }.$

Её называют размерностью участия или коэффициентом участия.

Если энергия равномерно распределена между $r$ направлениями, то

$r_{\rm part}=r.$

Если одно собственное значение значительно превосходит остальные, размерность участия близка к единице.

Эта величина учитывает весь спектр и не требует выбора порога. Однако она также не совпадает с минимальным числом компонент для заданной ошибки.

Энтропийная эффективная размерность

Нормируем собственные значения:

$p_j= \frac{\lambda_j} {\lambda_1+\ldots+\lambda_n}.$

Тогда

$p_1+\ldots+p_n=1.$

Энтропия спектра равна

$H= -\sum_{j=1}^{n}p_j\ln p_j.$

Энтропийная эффективная размерность определяется как

$r_{\rm ent}=e^H.$

Если $r$ компонент имеют одинаковые собственные значения, а остальные равны нулю, то

$r_{\rm ent}=r.$

Если доминирует одна компонента, значение приближается к единице.

Энтропийная размерность является непрерывной оценкой распределённости спектра.

Неоднозначность термина

Термин «эффективная размерность» используется для нескольких различных величин:

минимального числа компонент при заданной ошибке;
числа компонент до точки излома спектра;
числа статистически значимых компонент;
устойчивой размерности;
размерности участия;
энтропийной размерности;
размерности, оптимальной для целевой задачи.

Эти определения могут давать разные результаты.

Поэтому в статье, отчёте или эксперименте недостаточно указать только значение эффективной размерности. Необходимо явно описать:

используемое определение;
предварительную обработку;
допустимую ошибку;
способ вычисления спектра;
правило выбора компонент.

Пример с коррелированными признаками

Пусть объект описывается тремя признаками:

$f_1(x)=s(x)+\varepsilon_1,$

$f_2(x)=2s(x)+\varepsilon_2,$

$f_3(x)=-s(x)+\varepsilon_3,$

где $s(x)$ — общий скрытый фактор, а величины $\varepsilon_j$ — небольшой шум.

Формально объект описывается тремя координатами. Однако все признаки в основном определяются одной величиной $s(x)$ .

Первое собственное значение будет большим, а остальные — малыми:

$\lambda_1\gg\lambda_2,$

$\lambda_1\gg\lambda_3.$

При умеренной допустимой ошибке эффективная размерность будет равна единице.

Если шум увеличивается, значения $\lambda_2$ и $\lambda_3$ возрастают, и для точного восстановления потребуется больше компонент.

Пример вычисления

Пусть собственные значения равны:

$\lambda_1=50,$

$\lambda_2=25,$

$\lambda_3=15,$

$\lambda_4=5,$

$\lambda_5=5.$

Суммарная изменчивость равна

$S=50+25+15+5+5=100.$

Для одной компоненты:

$V_1=0.50,$

$E_1=0.50.$

Для двух компонент:

$V_2=0.75,$

$E_2=0.25.$

Для трёх компонент:

$V_3=0.90,$

$E_3=0.10.$

Для четырёх компонент:

$V_4=0.95,$

$E_4=0.05.$

Если допустимая ошибка равна 0,10, эффективная размерность равна трём:

$d_{\rm eff}(0.10)=3.$

Если допустимая ошибка равна 0,05, требуется четыре компоненты:

$d_{\rm eff}(0.05)=4.$

Связь с линейным автокодировщиком

Линейный автокодировщик состоит из кодировщика

$z=Ax$

и декодировщика

$\widehat x=Bz.$

Он обучается минимизировать ошибку

$\sum_{i=1}^{\ell} \|BAx_i-x_i\|^2.$

Если используются линейные преобразования, квадратичная функция потерь и скрытый слой размерности $m$ , оптимальное пространство кодов связано с пространством первых главных компонент.

Метод главных компонент можно записать как автокодировщик:

$z=U_m^Tx,$

$\widehat x=U_mz.$

В этом случае декодирующая матрица является транспонированной кодирующей, а столбцы $U_m$ ортонормированы.

Нелинейный автокодировщик способен приближать более сложную структуру данных. Однако размер скрытого слоя такого автокодировщика нельзя непосредственно интерпретировать как линейную эффективную размерность PCA.

Линейная и нелинейная размерность

Метод главных компонент ищет линейное подпространство.

Данные могут находиться около нелинейного многообразия малой размерности, но плохо приближаться линейной плоскостью.

Простой пример — точки, расположенные около окружности в двумерном пространстве. Сама окружность задаётся одним параметром — углом. Её внутренняя размерность равна единице.

Однако одна линейная компонента не может точно восстановить окружность. Для линейного представления потребуется две координаты.

Поэтому следует различать:

эффективную линейную размерность;
внутреннюю размерность данных;
размерность нелинейного представления.

Малая внутренняя размерность не гарантирует малой ошибки PCA.

Размерность и шум

Предположим, наблюдаемые данные состоят из сигнала и шума:

$F=S+N.$

Матрица $S$ имеет малый ранг, а $N$ содержит случайный шум.

Первые собственные значения обычно связаны с сильными направлениями сигнала. Последние могут отражать преимущественно шум.

Однако строгой границы между сигналом и шумом может не быть. Слабый полезный фактор способен иметь собственное значение того же порядка, что и случайные колебания.

Отбрасывание малых компонент уменьшает шум реконструкции, но одновременно может удалить слабую содержательную информацию.

Зависимость от масштаба признаков

Рассмотрим два признака:

длина в метрах;
масса в граммах.

Числовая дисперсия массы может быть на много порядков больше дисперсии длины только из-за выбора единиц измерения.

Без стандартизации первые главные компоненты будут преимущественно описывать признаки с крупным масштабом.

Если массу перевести из граммов в килограммы, спектр и эффективная размерность могут измениться.

Следовательно, эффективная размерность не является абсолютным свойством объектов. Она является свойством конкретного числового представления данных.

Зависимость от распределения выборки

Главные компоненты оптимальны для распределения объектов, представленного в обучающей выборке.

Если выборка состоит преимущественно из объектов одного типа, компоненты будут описывать изменчивость именно этого типа.

При изменении распределения новые объекты могут иметь большую ошибку реконструкции.

Например, подпространство, построенное по дневным фотографиям, может плохо восстанавливать ночные изображения.

Поэтому эффективную размерность следует проверять на данных, соответствующих предполагаемому применению.

Пропущенные значения

Классический метод главных компонент требует заполненной матрицы.

Если некоторые значения отсутствуют, простая подстановка нулей искажает средние, ковариации и спектр.

Возможные подходы:

предварительное восстановление пропусков;
итеративная PCA;
вероятностный метод главных компонент;
низкоранговое матричное разложение по наблюдаемым элементам;
модели, непосредственно учитывающие маску пропусков.

Способ обработки пропусков влияет на полученный спектр и оценку размерности.

Выбросы

Квадратичная ошибка сильно чувствительна к выбросам.

Несколько аномальных объектов могут создать направления с большой дисперсией. Первая главная компонента начнёт описывать выбросы вместо основной структуры выборки.

Возможные меры:

анализ и очистка данных;
робастное масштабирование;
ограничение экстремальных значений;
робастный метод главных компонент;
использование неквадратичных функций потерь.

Удаление выбросов допустимо только при наличии содержательного обоснования. Редкий объект не обязательно является ошибкой.

Интерпретация компонент

Главная компонента является линейной комбинацией исходных признаков:

$g_t(x)= \sum_{j=1}^{n}u_{jt}f_j(x).$

Коэффициенты $u_{jt}$ называют нагрузками признаков.

Большое абсолютное значение $u_{jt}$ означает, что признак $j$ существенно участвует в компоненте $t$ .

Однако интерпретация требует осторожности:

знак собственного вектора можно изменить без изменения модели;
коррелированные признаки могут распределять нагрузку между собой;
одна компонента может смешивать несколько факторов;
поворот подпространства может изменить координаты без изменения качества реконструкции.

Эффективная размерность показывает число необходимых направлений, но не гарантирует, что каждое направление имеет простую содержательную интерпретацию.

Применения

Сжатие данных

Вместо исходного вектора размерности $n$ хранится вектор главных компонент размерности $m$ :

$z=U_m^Tx.$

Если

$m\ll n,$

объём хранения и стоимость последующей обработки уменьшаются.

Визуализация

Первые две или три компоненты позволяют изобразить объекты на плоскости или в трёхмерном пространстве.

Такая визуализация показывает только ту часть структуры, которую сохраняют выбранные компоненты.

Подавление шума

Реконструкция по первым компонентам

$\widehat x=U_mU_m^Tx$

удаляет изменения вдоль отброшенных направлений.

Если эти направления преимущественно соответствуют шуму, качество данных улучшается.

Ускорение обучения

Снижение числа признаков уменьшает вычислительные затраты некоторых алгоритмов и может снижать мультиколлинеарность.

Анализ избыточности признаков

Малая эффективная размерность при большом числе исходных признаков указывает на сильную зависимость или дублирование информации между признаками.

Обнаружение изменений

Если модель эффективного подпространства построена по нормальному режиму работы системы, увеличение ошибки реконструкции может указывать на аномалию или изменение режима.

Ошибка реконструкции и потеря информации

Малая квадратичная ошибка не означает сохранения всей содержательно важной информации.

PCA преимущественно сохраняет направления большой дисперсии. Редкий признак с малой дисперсией может быть важен для принятия решения, но почти не влиять на общую ошибку.

Например, небольшой по амплитуде сигнал может определять наличие неисправности. Если он встречается редко, PCA способна удалить его как слабую компоненту.

Поэтому понятие информации в PCA фактически связано с квадратичной изменчивостью, а не со смыслом признаков или ценностью для задачи.

Типичные ошибки

Использование нецентрированных данных

Без центрирования компоненты могут описывать средние значения, а не ковариационную структуру.

Автоматическая стандартизация без анализа

Стандартизация полезна при несопоставимых единицах, но может уничтожить содержательные различия дисперсий.

Выбор размерности на тестовой выборке

Если число компонент подбирается по итоговому тесту, тестовая выборка становится частью настройки модели.

Отождествление малых собственных значений с шумом

Малое собственное значение не доказывает отсутствие полезного сигнала.

Отождествление ранга и эффективной размерности

Формальный ранг чувствителен к произвольно малому шуму. Эффективная размерность требует указания критерия точности.

Использование только графика излома

При плавном спектре точка излома может отсутствовать или быть неоднозначной.

Игнорирование объёма выборки

В пространстве высокой размерности выборочный спектр может быть нестабильным. Малое число объектов не позволяет надёжно оценить множество направлений.

Сравнение размерностей после разной предобработки

Эффективные размерности центрированных, стандартизированных и исходных данных относятся к разным задачам.

Неверное толкование объяснённой дисперсии

Доля объяснённой дисперсии не является долей правильно предсказанных объектов и не измеряет точность классификации.

Практический протокол

Для оценки эффективной размерности можно использовать следующую последовательность.

Определить набор числовых признаков.
Проверить единицы измерения и масштабы.
Разделить данные на обучающую и контрольную части.
Оценить параметры центрирования и масштабирования только по обучающей части.
Вычислить сингулярное разложение обучающей матрицы.
Построить график собственных значений.
Вычислить накопленную долю объяснённой дисперсии.
Сравнить несколько порогов допустимой ошибки.
Проверить ошибку реконструкции на контрольных объектах.
Для задачи с учителем проверить качество конечной модели при разных $m$ .
Исследовать устойчивость оценки при повторном разбиении выборки.
Зафиксировать определение эффективной размерности и все параметры обработки.

Философская интерпретация

Исходное число признаков определяется способом измерения объектов. Один и тот же объект можно описать сотнями, тысячами или миллионами координат.

Эффективная размерность отвечает не на вопрос о количестве записанных чисел, а на вопрос о количестве независимых направлений, необходимых для приближённого воспроизведения наблюдаемого разнообразия.

Однако это число не является безусловным свойством мира. Оно зависит от:

выбранных признаков;
единиц измерения;
распределения объектов;
допустимой ошибки;
модели приближения;
уровня шума;
цели анализа.

Если допускается только линейное приближение, получаем линейную эффективную размерность. При использовании нелинейных моделей то же облако объектов может иметь другое компактное описание.

Поэтому утверждение «данные имеют размерность $m$ » без указания метода и точности является неполным.

Более корректно утверждать, что данные допускают представление размерности $m$ в рамках определённой модели и с определённой ошибкой.

Заключение

Эффективная размерность выборки характеризует число компонент, достаточное для приближённого описания данных.

В методе главных компонент она может определяться как минимальное $m$ , при котором относительная ошибка реконструкции не превосходит заданного порога: