Определение гиперпараметров для MVR
Материал из MachineLearning.
При максимизации вероятности появления данных D для гиперпараметров α и β мы получаем:
<math>ln p(D|\alpha , \beta ) = -E_W^{MP} - \frac{1,2}\Sum{j=1,W}\frac{1,\lambda_j+\alpha +\frac{W,2\alpha} </math>
Отсюда, приравнивая логарифм к 0, получаем выражение для α.
<здесь будет выражение для альфа, когда я разберусь с местным синтаксисом>
Выражаем γ - мера числа хорошо обусловленных параметров модели:
<здесь будет выражение для гамма, когда я разберусь с местным синтаксисом>
Далее, находя оптимальное β, получим, что
<здесь будет выражение для бетта, когда я разберусь с местным синтаксисом>
Таким образом, на каждом шаге у нас для модели определены гиперпараметры α,β,γ. При этом β определена для всей модели, а α и γ для каждой функции из суперпозиции. Так как оптимизация параметров w дает нам положительно определенную форму гессиана, его собственные значения λ больше нуля, и, таким образом, γ меньше нуля.
Мы имеем следующий итерационный процесс пересчета α и γ:
<Здесь будут две простые формулы>.
Процесс сходится, так как увеличение α ведет к увеличению γ, что на следующем шаге ведет к уменьшению α.
Код, считающий гиперпараметры: