Поиск нелинейной модели поверхности Мохоровичича (пример)
Материал из MachineLearning.
Поиск нелинейной модели поверхности раздела пород земной коры.
Содержание |
Аннотация
Рассматривается задача восстановления функциональной зависимости глубины прохождения поверхности раздела пород земной коры от значений поля силы тяжести на определенных высотах. На вид зависимости накладываются ограничения в силу особенностей задачи. Применяется символьная регрессия и метод полного перебора суперпозиций, полученных из заданного набора функций. Построен алгоритм нахождения парето-оптимального фронта по совокупности критериев качества.
Постановка задачи
Имеется несколько точек на поверхности Земли. Каждой точке сопоставлен вектор значений силы тяжести , измеренной на~заданных высотах , а также глубина границы раздела: , . Здесь - количество точек, в которых известна глубина прохождения границы раздела, - число измерений силы тяжести в каждой точке.
Кроме того, имеется множество точек, на которых известны только векторы значений силы тяжести . Требуется построить функцию , которая позволяет вычислять значение глубины раздела слоёв по~значениям сил тяжести и вычислить её на~заданном множестве точек.
Требуется найти , где , - множество -местных непрерывных, монотонных функций действительной переменной, , - множество функций из , зависящих дополнительно от вектора параметров, - множество индексов функций множества , - настраиваемый вектор параметров, , - множество допустимых векторов параметров функции .
Запишем сумму квадратов регрессионных остатков , где , , - множество индексов объектов, по которым считается сумма, .
Используются следующие критерии качества.
Переобученность модели. Мы будем разбивать выборку на обучающую и контрольную , . Пусть и - множества индексов объектов обучающей и контрольной выборок, тогда , где - множество индексов всех объектов выборки. Вектор параметров модели будет настраиваться по минимизации функционала , а значение критерия будет вычислено по байесовскому информационному критерию BIC: , где - длина вектора .
Простота модели будет вычислена как число поддеревьев дерева суперпозиции.
Качество приближения данных будет вычислено как средняя сумма квадратов регрессионных остатков на контрольной подвыборке.
Множество - парето-оптимальное множество по совокупности критериев качества: где - номер парето-слоя, в котором лежит модель с индексом и вектором параметров, настроенным по минимизации суммы квадратов регрессионных остатков на обучающей подвыборке: Для каждой вектор параметров находится как
Пути решения задачи
Порождение суперпозиций функций набора методом полного перебора. Каждой суперпозиции можно поставить в соответствие дерево, в вершинах которого стоят функции набора, в листьях - аргументы, а ребро, связывающее вершины означает, что функция, соответствующая вершине-потомку подается в качестве аргумента на вход функции, соответствующей вершине-предку. Метод заключается в том, чтобы перебрать все возможные суперпозиции функций набора вплоть до определенной глубины/длины. В нашей задаче, поскольку , будем осуществлять перебор среди суперпозиций, в которых на месте самых нижних функций (листьев дерева суперпозиции) стоят дискретные функции .
Смотри также
Данная статья была создана в рамках учебного задания.
См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |