Метод Ньютона. Проблема области сходимости. Метод парабол. Совмещение методов Ньютона и парабол

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Версия 22:13, 16 ноября 2008

Содержание

1 Постановка задачи одномерной оптимизации
2 Метод Ньютона
- 2.1 Ограничения
- 2.2 Проблема области сходимости
3 Метод парабол
4 Совмещение метода Ньютона и Парабол
5 Численный пример
6 Литература
7 Смотри также

Постановка задачи одномерной оптимизации

Задача одномерной оптимизации определяется следующим образом:

Допустимое множество — множество $\mathbb{X} \subseteq \texbb{R}$ ;
Целевую функцию — отображение $f:\;\mathbb{X}\to\mathbb{R}$ ;
Критерий поиска (max или min).

Тогда решить задачу $f(x)\to \min_{x\in\mathrm{X}}$ означает одно из:

Показать, что $\mathbb{X}=\not\bigcirc$ .
Показать, что целевая функция $f(x)$ не ограничена.
Найти $x^*\in\mathbb{X}:\;f(x^*)=\min_{x\in\mathbb{X}}f(\vec{x})$ .
Если $\not\exists x^*$ , то найти $\inf_{x\in\mathbb{X}}f(x)$ .

Если минимизируемая функция не является выпуклой, то часто ограничиваются поиском локальных минимумов и максимумов: точек $x_0$ таких, что всюду в некоторой их окрестности $f(x)\ge f(x_0)$ для минимума и $f(x)\le f(x_0)$ для максимума.

Если допустимое множество $\mathbb{X}=\mathbb{R}$ , то такая задача называется задачей безусловной оптимизации, в противном случае — задачей условной оптимизации.

Метод Ньютона

Это итерационный численный метод нахождения корня (нуля) заданной функции. Метод был впервые предложен английским физиком, математиком и астрономом Исааком Ньютоном (1643—1727), под именем которого и обрёл свою известность. Поиск решения осуществляется путём построения последовательных приближений и основан на принципах простой итерации. Метод обладает квадратичной сходимостью. В случае решения задач оптимизации предполагается, что функция $f(x)$ дважды непрерывно дифференцируема. Отыскание минимума функции $f(x)$ производится при помощи отыскания стационарной точки, т.е. точки $x^*$ , удовлетворяющей уравнению $f'(x)=0$ , которое решается методом Ньютона.

Если $x^k$ – точка, полученная на k-м шаге, то функция $f'(x)$ аппроксимируется своим уравнением касательной:

$y = f'(x^k) + (x - x^k)f''(x^k)$

а точка $x^{k+1}$ выбирается как пересечение этой прямой с осью $Ox$ , т.е.

$x^{k+1} = x^k - \frac{f'(x^k)}{f''(x^k)}$ .

Неудобство этого метода состоит в необходимости вычисления в каждой точке первой и второй производных. Значит, он применим лишь тогда, когда функция $f(x)$ имеет достаточно простую аналитическую форму, чтобы производные могли быть вычислены в явном виде вручную. Действительно, всякий раз, когда решается новая задача, необходимо выбрать две специфические подпрограммы (функции) вычисления производных $f'(x)$ и $f''(x)$ , что не позволяет построить общие алгоритмы, т.е. применимые к функции любого типа.

Когда начальная точка итераций $x_0$ достаточно близка к искомому минимуму, скорость сходимости метода Ньютона в общем случае квадратическая. Однако, глобальная сходимость метода Ньютона, вообще говоря, не гарантируется.

Хороший способ гарантировать глобальную сходимость этого метода состоит в комбинировании его с другим методом для быстрого получения хорошей аппроксимации искомого оптимума. Тогда несколько итераций метода Ньютона, с этой точкой в качестве исходной, достаточны для получения превосходной точности.

Ограничения

Пускай задано уравнение $f(x)=0\!$ , где $f(x):\;\mathbb{X} \to \mathbb{R}\!$ и надо найти его решение.

Ниже приведена формулировка основной теоремы, которая позволяет дать чёткие условия применимости. Теорема Канторовича.

Если существуют такие константы $A,B,C\!$ , что:

$\frac{1}{|f'(x)|}<A\!$ на $[a,\;b]\!$ , то есть $f'(x)\!$ существует и не равна нулю;
$\left|\frac{f(x)}{f'(x)}\right|<B\!$ на $[a,\;b]\!$ , то есть $f(x)\!$ ограничена;
$\exist f''(x)\!$ на $[a,\;b]\!$ , и $|f''(x)|\leq C \leq \frac{1}{2AB}\!$ ;

Причём длина рассматриваемого отрезка $|a-b|<\frac{1}{AB}\left(1- \sqrt{1-2ABC}\right)\!$ . Тогда справедливы следующие утверждения:

на $[a,\;b]\!$ существует корень $x^*$ уравнения $f(x)=0:\quad\exist x^*\in[a,\;b]: f(x^*)=0\!$ ;
если $x_0=\frac{a+b}{2}\!$ , то итерационная последовательность сходится к этому корню: $\left\{ x_{n+1}=x_n-\frac{f(x_n)}{f'(x_n)}\right\}\to x^*\!$ ;
погрешность может быть оценена по формуле $|x^*-x_n|\leq\frac{B}{2^{n-1}}(2ABC)^{2^{n-1}}\!$ .

Из последнего из утверждений теоремы в частности следует квадратичная сходимость метода:

$|x^*-x_n|\leq\frac{B}{2^{n-1}}(2ABC)^{2^{n-1}}=\frac{1}{2}\frac{B}{2^{n-2}}\left((2ABC)^{2^{n-2}}\right)^2=\alpha |x^*-x_{n-1}|^2\!$

Тогда ограничения на исходную функцию $f(x)\!$ будут выглядеть так:

функция должна быть ограничена;
функция должна быть гладкой, дважды дифференцируемой;
её первая производная $f'(x)$ равномерно отделена от нуля;
её вторая производная $f''(x)\!$ должна быть равномерно ограничена.

В случае решения задачи оптимизации под функцией понимаем ее производную.

Проблема области сходимости

Запишем итерационный процесс:

$x^{k+1} = x^k - \frac{f'(x^k)}{f''(x^k)}$ .

Известно, что условием сходимости этого процесса будет неравенство

$|S'(x)| \le q < 1$ ,

где $S(x) = x^k - \frac{f'(x^k)}{f''(x^k)}$ , отсюда получем условие сходимости:

$|\frac{f'(x)f'''(x)}{(f'(x))^2}| \le q < 1$ .

В силу того что мы ищем корень уравнения $f'(x) = 0$ , существует такая окрестность, где $|S'(x)| \le q < 1$ , но в общем случае эта область будет мала, то есть нужно подбирать начальное приближение достаточно близко расположенным к корню.

Теорма о сходимости метода Ньютона Пусть $x^*$ - простой вещественный корень уравнения $f(x) = 0$ , а функция $f(x)$ - дважды дифференцируема в некоторой окрестности $U_r(x^*)$ , причем первая произодная нигде не обращается в нуль.

Тогда, следуя обозначениям

$0 < m_1 = \inf_{x\in U_r(x^*)}|f'(x)|, M_2 = \sup_{x\in U_r(x^*)}|f''(x)|$ ,

При выборе начального приближения $x^0$ из той же окрестности $U_r(x^*)$ такого, что

$\frac{M_2|x^0 - x^*|}{2m_1} = q < 1$ ,

итерационная последовательность

$x^{k+1} = x^k - \frac{f(x^k)}{f'(x^k)}, k = 0,1, \dots$

будет сходиться к $x^*$ , причем для погрешности на k-м шаге буддет справедлива оценка:

$|x^k - x^*| \le q^{2^k - 1}|x^0 - x^*|$ .

Метод парабол

Относительно метода Ньютона этот метод обладает тем преимуществом, что он не требует вычисления производных функции $f(x)$ . Однако, его сходимость может быть гарантирована лишь для достаточно регулярных функций (непрерывных и много раз дифференцируемых).

В этом методе вычисляется значение функции сразу в трех близлежащих точках $x_0 - h$ , $x_0$ , $x_0 + h$ , где h – малое число. Через эти три точки проводится интерполяционная парабола:

$y = ax^2 + bx + c$ .

Минимум параболы достигается при $y = 2ax + b = 0$ , т.е. при $x^* = \frac{-b}{2a}$ . Для трех точек получаем систему трех линейных уравнений для коэффициентов a, b, c. Находим a и b и тогда:

$x^{k+1} = x^k - 0.5h\frac{f(x^k + h) - f(x^k - h)}{f(x^k + h) - 2f(x^k) + f(x^k - h)}$ .

Совмещение метода Ньютона и Парабол

Численный пример

Литература

Смотри также

Практикум ММП ВМК, 4й курс, осень 2008

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%9D%D1%8C%D1%8E%D1%82%D0%BE%D0%BD%D0%B0._%D0%9F%D1%80%D0%BE%D0%B1%D0%BB%D0%B5%D0%BC%D0%B0_%D0%BE%D0%B1%D0%BB%D0%B0%D1%81%D1%82%D0%B8_%D1%81%D1%85%D0%BE%D0%B4%D0%B8%D0%BC%D0%BE%D1%81%D1%82%D0%B8._%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%BF%D0%B0%D1%80%D0%B0%D0%B1%D0%BE%D0%BB._%D0%A1%D0%BE%D0%B2%D0%BC%D0%B5%D1%89%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D0%BE%D0%B2_%D0%9D%D1%8C%D1%8E%D1%82%D0%BE%D0%BD%D0%B0_%D0%B8_%D0%BF%D0%B0%D1%80%D0%B0%D0%B1%D0%BE%D0%BB»

Категория: Учебные задачи

@@ Строка 24: / Строка 24: @@
 а точка <tex>x^{k+1}</tex> выбирается как пересечение этой прямой с осью <tex>Ox</tex>, т.е.
-<tex>x^{k+1} = x^k - \frac{f'(x^k)}{f''(x^k)}</tex>.
+<p align='center'><tex>x^{k+1} = x^k - \frac{f'(x^k)}{f''(x^k)}</tex>.</p>
 Неудобство этого метода состоит в необходимости вычисления в каждой точке первой и второй производных. Значит, он применим лишь тогда, когда функция <tex>f(x)</tex> имеет достаточно простую аналитическую форму, чтобы производные могли быть вычислены в явном виде вручную. Действительно, всякий раз, когда решается новая задача, необходимо выбрать две специфические подпрограммы (функции) вычисления производных <tex>f'(x)</tex> и <tex>f''(x)</tex>, что не позволяет построить общие алгоритмы, т.е. применимые к функции любого типа.
@@ Строка 61: / Строка 61: @@
 Запишем итерационный процесс:
-<tex>x^{k+1} = x^k - \frac{f'(x^k)}{f''(x^k)}</tex>.
+<p align='center'><tex>x^{k+1} = x^k - \frac{f'(x^k)}{f''(x^k)}</tex>.</p>
 Известно, что условием сходимости этого процесса будет неравенство
-<tex>|S'(x)| \le q < 1</tex>,
+<p align='center'><tex>|S'(x)| \le q < 1</tex>,</p>
 где <tex>S(x) = x^k - \frac{f'(x^k)}{f''(x^k)}</tex>, отсюда получем условие сходимости:
-<tex>|\frac{f'(x)f'''(x)}{(f'(x))^2}| \le q < 1</tex>.
+<p align='center'><tex>|\frac{f'(x)f'''(x)}{(f'(x))^2}| \le q < 1</tex>.</p>
 В силу того что мы ищем корень уравнения <tex>f'(x) = 0</tex>, существует такая окрестность, где <tex>|S'(x)| \le q < 1</tex>, но в общем случае эта область будет мала, то есть нужно подбирать начальное приближение достаточно близко расположенным к корню.
 '''Теорма о сходимости метода Ньютона'''
-Пусть <tex>x^*</tex> - простой вещественный корень уравнения <tex>f(x) = 0</tex>, а функция <tex>f(x)</tex> - дважды дифференцируема в некоторой окрестности <tex>U_r(x^*)</tex>, причем первая произодная нигде не обращается в нуль.
+''Пусть <tex>x^*</tex> - простой вещественный корень уравнения <tex>f(x) = 0</tex>, а функция <tex>f(x)</tex> - дважды дифференцируема в некоторой окрестности <tex>U_r(x^*)</tex>, причем первая произодная нигде не обращается в нуль.''
-Тогда, следуя обозначениям
+''Тогда, следуя обозначениям''
-<tex>0 < m_1 = \inf_{x\in U_r(x^*)}|f'(x)|, M_2 = \sup_{x\in U_r(x^*)}|f''(x)|</tex>,
+<p align='center'><tex>0 < m_1 = \inf_{x\in U_r(x^*)}|f'(x)|, M_2 = \sup_{x\in U_r(x^*)}|f''(x)|</tex>,</p>
-При выборе начального приближения <tex>x^0</tex> из той же окрестности <tex>U_r(x^*)</tex> такого, что
+''При выборе начального приближения <tex>x^0</tex> из той же окрестности <tex>U_r(x^*)</tex> такого, что ''
-<tex>\frac{M_2|x^0 - x^*|}{2m_1} = q < 1</tex>,
+<p align='center'><tex>\frac{M_2|x^0 - x^*|}{2m_1} = q < 1</tex>,</p>
-итерационная последовательность
+''итерационная последовательность''
-<tex>x^{k+1} = x^k - \frac{f(x^k)}{f'(x^k)}, k = 0,1, \dots</tex>
+<p align='center'><tex>x^{k+1} = x^k - \frac{f(x^k)}{f'(x^k)}, k = 0,1, \dots</tex></p>
-будет сходиться к <tex>x^*</tex>, причем для погрешности на k-м шаге буддет справедлива оценка:
+''будет сходиться к <tex>x^*</tex>, причем для погрешности на k-м шаге буддет справедлива оценка:''
-<tex>|x^k - x^*| \le q^{2^k - 1}|x^0 - x^*|</tex>.
+<p align='center'><tex>|x^k - x^*| \le q^{2^k - 1}|x^0 - x^*|</tex>.</p>
 == Метод парабол ==