Обсуждение участника:Strijov
Материал из MachineLearning.
 (→Метод главных компонент)  | 
				|||
| Строка 1: | Строка 1: | ||
| - | ==   | + | == Временно: Метод главных компонент ==  | 
| - | + | '''Метод главных компонент''' — способ снижения размерности пространства данных.  | |
| + | |||
| + | Он заключается в нахождении линейного ортогонального преобразования исходной матрицы данных в пространство меньшей размерности.  | ||
| + | |||
| + | При этом выбираются такая ортогональная система координат, которая обеспечивает наименьшую потерю информации в исходных данных.  | ||
| + | |||
| + | Последнее подразуменает минимальную среднеквадратичную ошибку при проекции данных в пространство заданной размерности.  | ||
| + | |||
| + | === Определение метода главных компонент ===  | ||
| + | |||
| + | [[Изображение:Principal_Component_Analysis.gif|right|frame|Векторы-строки матрицы исходных данных <tex>A</tex> показаны звездочками. Красным крестом отмечен первый вектор-столбец матрицы вращения <tex>V</tex>. Точками отмечены проекции векторов на новую систему координат. Сумма квадратов длин синих линий есть ошибка — количество информации, утраченной при снижении размерности пространства.]]  | ||
| + | |||
| + | Одной из задач аппроксимации является задача приближения множества векторов-строк <tex>\mathbf{a}_i</tex> матрицы <tex>A</tex> их проекциями на некоторую новую ортогональную систему координат.  | ||
| + | |||
| + | Эта система отыскивается на множестве преобразований вращений <tex>V</tex> начальной системы координат.  | ||
| + | |||
| + | При этом множество аппроксимируемых векторов <tex>\mathbf{a}_i</tex>, <tex>i=1,...,m</tex>, отображается в новое множество векторов <tex>\mathbf{z}_i</tex>, где <tex>\mathbf{a}_i,\mathbf{z}_i\in\mathbb{R}^n</tex>.  | ||
| + | |||
| + | Оператором отображения   | ||
| + | <center><tex>Z=A^TV</tex></center>  | ||
| + | является ортонормальная матрица <tex>V</tex>, то есть <tex>VV^T=I</tex> — единичная матрица.  | ||
| + | |||
| + | Столбцы <tex>Z</tex> называются главными компонентами матрицы <tex>A</tex>. Матрица <tex>V</tex> строится таким образом, что среднеквадратическая разность между векторами <tex>\mathbf{a}_i</tex> и проекцией этих векторов на ортогональную систему координат, заданных <tex>\mathbf{z}_i</tex> минимальна.  | ||
| + | |||
| + | Наиболее удобным способом получения матрицы <tex>V</tex> является [[сингулярное разложение]] матрицы <tex>A</tex>:  | ||
| + | <center><tex>A=U\Lambda V^T.</tex></center>  | ||
| + | Метод главных компонент позволяет с помощью <tex>k</tex> первых главных компонент можно восстановить исходную матрицу с минимальной ошибкой.  | ||
| + | |||
| + | Критерий минимального значения суммы квадратов расстояния от векторов-столбцов матрицы данных до их проекций на первую главную компоненту называется критерием наибольшей информативности C.Р. Рао.  | ||
| + | |||
| + | Кроме того, матрица <tex>V</tex> выполняет декоррелирующее преобразование, называемое также преобразованием Карунена-Лоэва. В результате этого преобразования исчезает возможная корреляция между векторами-столбцами исходной матрицы <tex>A</tex>. Рао было показано, что строки матрицы <tex>V</tex> есть собственные векторы ковариационной матрицы <center><tex>\Sigma=A^TA,</tex></center> где матрица <tex>A</tex> <i>центрирована</i> — из каждого ее столбца вычтено среднее значение по этому столбцу.  | ||
| + | |||
| + | === Понятие наибольшей информативности ===  | ||
| + | Рассмотрим <tex>n</tex>-мерную случайную величину <tex>A</tex> с ковариационной матрицей <tex>\Sigma=A^TA</tex>. Обозначим <tex>\mu_1,\dots,\mu_n</tex> — соответствующие собственные числа и <tex>\mathbf{v}_1,\dots,\mathbf{v}_n</tex> — собственные векторы матрицы <tex>\Sigma</tex>. Заметим, что собственные числа и элементы собственных векторов матрицы <tex>\Sigma</tex> всегда действительны. Тогда по теореме о собственных числах <center><tex>\Sigma=\sum_{i=1}^n\mu_i\mathbf{v}_i\mathbf{v}_i^T,</tex>  <tex>I=\sum_{i=1}^n\mathbf{v}_i\mathbf{v}_i^T,</tex></center>  | ||
| + | <center><tex>\mathbf{v}_i^T{\Sigma}\mathbf{v}_i=\mu_i,</tex>  <tex>\mathbf{v}_i^T{\Sigma}\mathbf{v}_j=0,</tex>   <tex>i\neq{j}.</tex> (*)</center> Случайная величина <tex>\mathbf{z}_i=\mathbf{v}_i^TA</tex> называется <tex>i</tex>-й главной компонентой случайной величины <tex>A</tex>. Матрица вращения <tex>V</tex> составлена из векторов-столбцов <tex>\mathbf{v}_1,\ldots,\mathbf{v}_n</tex>. Матрица главных компонент <tex>Z=A^TV</tex> имеет следующие свойства.  | ||
| + | === Смотри также ===  | ||
| + | * [[Сингулярное разложение]]  | ||
| + | * [[Интегральный индикатор]]  | ||
| + | * [[Обучение без учителя]]  | ||
| + | === Литература ===  | ||
| + | * Рао С.Р. Линейные статистические методы и их применения. М.: Наука. 1968. — С. 530-533.  | ||
| + | * Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика. 1989.  | ||
| + | * Jolliffe I.T. Principal Component Analysis, Springer Series in Statistics. Springer. 2002.  | ||
| + | * Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points in Space". Philosophical Magazine 2 (6): 559–572. [http://pbil.univ-lyon1.fr/R/liens/pearson1901.pdf]  | ||
| + | === Внешние ссылки ===  | ||
| + | * [http://pca.narod.ru/ Нелинейный метод главных компонент]  | ||
| + | * [http://en.wikipedia.org/wiki/Principal_components_analysis Principal components analysis at wikipedia.org]  | ||
| + | * [http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент на   | ||
| + | wikipedia.org]  | ||
| + | |||
| + | == Оформление статей ==  | ||
В статье обязательно должны присутствовать:  | В статье обязательно должны присутствовать:  | ||
* начальное определение, которое четко позиционирует понятие в рамках направления, сформулированное таким образом, чтобы оно было понятно и стороннему человеку, имеющему общую математическую подготовку;  | * начальное определение, которое четко позиционирует понятие в рамках направления, сформулированное таким образом, чтобы оно было понятно и стороннему человеку, имеющему общую математическую подготовку;  | ||
* категории - это единственный реальный инструмент поиска статей, кроме поиска по названию;   | * категории - это единственный реальный инструмент поиска статей, кроме поиска по названию;   | ||
| - | * ссылки из своей статьи на другие и из других статей на текущую; ссылаться при этом можно и на пока еще не созданные статьи  | + | * ссылки из своей статьи на другие и из других статей на текущую; ссылаться при этом можно и на пока еще не созданные статьи  | 
| - | + | ||
| - | + | ||
== Для пополнения тулбокса ==  | == Для пополнения тулбокса ==  | ||
Вадим, теперь есть возможность использовать шаблон {{Tl|S}} для установки правильных инициалов в статьях.  | Вадим, теперь есть возможность использовать шаблон {{Tl|S}} для установки правильных инициалов в статьях.  | ||
| - | |||
Например, <nowiki>{{S|В. В. Стрижов}}</nowiki> даст такой результат {{S|В. В. Стрижов}}. --[[Участник:Yury Chekhovich|Yury Chekhovich]] 18:52, 12 февраля 2008 (MSK)  | Например, <nowiki>{{S|В. В. Стрижов}}</nowiki> даст такой результат {{S|В. В. Стрижов}}. --[[Участник:Yury Chekhovich|Yury Chekhovich]] 18:52, 12 февраля 2008 (MSK)  | ||
== Список наблюдения ==  | == Список наблюдения ==  | ||
| - | |||
Рекомендую в настройках в закладке "Список наблюдения" включить следующие галочки "Добавлять созданные мной страницы в список наблюдения" и "Добавлять изменённые мной страницы в список наблюдения". Тае удобнее следить за изменениями на страницах, которые правил. --[[Участник:Yury Chekhovich|Yury Chekhovich]] 13:09, 14 февраля 2008 (MSK)  | Рекомендую в настройках в закладке "Список наблюдения" включить следующие галочки "Добавлять созданные мной страницы в список наблюдения" и "Добавлять изменённые мной страницы в список наблюдения". Тае удобнее следить за изменениями на страницах, которые правил. --[[Участник:Yury Chekhovich|Yury Chekhovich]] 13:09, 14 февраля 2008 (MSK)  | ||
Версия 16:53, 14 октября 2008
Содержание | 
Временно: Метод главных компонент
Метод главных компонент  способ снижения размерности пространства данных.
Он заключается в нахождении линейного ортогонального преобразования исходной матрицы данных в пространство меньшей размерности.
При этом выбираются такая ортогональная система координат, которая обеспечивает наименьшую потерю информации в исходных данных.
Последнее подразуменает минимальную среднеквадратичную ошибку при проекции данных в пространство заданной размерности.
Определение метода главных компонент
  Одной из задач аппроксимации является задача приближения множества векторов-строк  матрицы 
 их проекциями на некоторую новую ортогональную систему координат.
Эта система отыскивается на множестве преобразований вращений  начальной системы координат.
При этом множество аппроксимируемых векторов , 
, отображается в новое множество векторов 
, где 
.
Оператором отображения
является ортонормальная матрица , то есть 
  единичная матрица.
Столбцы  называются главными компонентами матрицы 
. Матрица 
 строится таким образом, что среднеквадратическая разность между векторами 
 и проекцией этих векторов на ортогональную систему координат, заданных 
 минимальна.
Наиболее удобным способом получения матрицы  является сингулярное разложение матрицы 
:
Метод главных компонент позволяет с помощью  первых главных компонент можно восстановить исходную матрицу с минимальной ошибкой.
Критерий минимального значения суммы квадратов расстояния от векторов-столбцов матрицы данных до их проекций на первую главную компоненту называется критерием наибольшей информативности C.Р. Рао.
Кроме того, матрицаПонятие наибольшей информативности
РассмотримСмотри также
Литература
- Рао С.Р. Линейные статистические методы и их применения. М.: Наука. 1968.  С. 530-533.
 - Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика. 1989.
 - Jolliffe I.T. Principal Component Analysis, Springer Series in Statistics. Springer. 2002.
 - Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points in Space". Philosophical Magazine 2 (6): 559–572. [1]
 
Внешние ссылки
- Нелинейный метод главных компонент
 - Principal components analysis at wikipedia.org
 - [http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент на
 
wikipedia.org]
Оформление статей
В статье обязательно должны присутствовать:
- начальное определение, которое четко позиционирует понятие в рамках направления, сформулированное таким образом, чтобы оно было понятно и стороннему человеку, имеющему общую математическую подготовку;
 - категории - это единственный реальный инструмент поиска статей, кроме поиска по названию;
 - ссылки из своей статьи на другие и из других статей на текущую; ссылаться при этом можно и на пока еще не созданные статьи
 
Для пополнения тулбокса
Вадим, теперь есть возможность использовать шаблон {{S}} для установки правильных инициалов в статьях. Например, {{S|В. В. Стрижов}} даст такой результат В. В. Стрижов. --Yury Chekhovich 18:52, 12 февраля 2008 (MSK)
Список наблюдения
Рекомендую в настройках в закладке "Список наблюдения" включить следующие галочки "Добавлять созданные мной страницы в список наблюдения" и "Добавлять изменённые мной страницы в список наблюдения". Тае удобнее следить за изменениями на страницах, которые правил. --Yury Chekhovich 13:09, 14 февраля 2008 (MSK)
Вниманию участников
Появилась страница Вниманию участников предназначенная для общения участников по проекту. Предлагаю все идеи и проблемы вносить туда. --Yury Chekhovich 13:51, 29 февраля 2008 (MSK)
Метод главных компонент
Вадим, я обнаружил пустую эту пустую статью созданную участником Vadim Strijov :). Кинул туда буквально одно предложение, чтобы она не была пустой. У тебя нет желания её написать? Можно использовать и этот материал из Википедии. --Yury Chekhovich 10:33, 5 марта 2008 (MSK)
- Уважаемый Вадим Викторович, я закачал материал из Википедии в Метод главных компонент, начал собирать подзаголовки для расширения. Устойчивость главных компонент, Сколько главных компонент нужно оставлять, Анализ соответствий ... . Добавьте и Вы свои пожелания, пригласите также коллег.--Agor153 14:57, 2 июля 2008 (MSD)
 
- Да, тут Андрей Зиновьев на пару недель из Парижа приехал в Россию. Мне удалось с ним связаться и спросить, не возражает ли он против публикации его книги "Визуализация многомерных данных" (2000 г.) на Вашем ресурсе. Он не возражает. А оно Вам надо? (Закономерный и своевременный вопрос ;).)--Agor153 02:12, 3 июля 2008 (MSD)
 
Спасибо! Да, оно нам надо. Опубликуем. Есть вот такой вопрос. Так как сайт поддерживают официальные организации: РФФИ, Форексис, ВЦ, то мы не должны нарушать авторские права. Мы должны будем поставить заметку, что автор согласен с публикацией и e-mail автора. И вопрос к Вам и к Андрею Зиновьеву: если книга издавалась, то какие права на нее имеет издательство? Разрешит ли оно такую публикацию? --Strijov 11:40, 3 июля 2008 (MSD)
ОК, попробую связаться. Думаю, что с издательством пробем не будет - но пусть он спросит. Все контакты займут, вероятно, несколько недель. (Эти "французские" ученые летом путешествуют вовсю, да и провинциальное российское издательство, вероятно, тоже отдыхает :).)--Agor153 14:06, 3 июля 2008 (MSD)
Здравствуйте, меня зoвут Андрей Зиновьев. Отвечаю на вопрос: на книге стоят два копирайта "Андрей Зиновьев" и "Институт Вычислительного Моделирования СО РАН". Я даю полное согласие на использование файла книги, который можно взять здесь http://pca.narod.ru/ZinovyevBook.pdf. С издательством не будет никаких проблем, они претензий на копирайт не имеют. --zinovyev 18:00, 12 августа 2008 (MSD)
- Андрей, большое спасибо! --Strijov 01:53, 17 августа 2008 (MSD)
 
С приездом
Смотрю, ты сразу же рьяно взялся за дело :)) --Yury Chekhovich 18:52, 16 марта 2008 (MSK)
Спасибо!
--Strijov 19:32, 16 марта 2008 (MSK)

