Фундаментальная модель

Материал из MachineLearning.

Перейти к: навигация, поиск
Статья написана с использованием LLM ChatGPT 5.5 и проверена участником Liliia Davletova


Содержание

Фундаментальная модель

Фундаментальная модель (Foundation Model) — класс моделей машинного обучения, предварительно обученных на очень больших и разнообразных наборах данных, способных служить универсальной основой для решения широкого спектра прикладных задач посредством дообучения, обучения с инструкциями, контекстного обучения (in-context learning), RAG и других методов адаптации.

Термин был предложен исследователями Stanford Center for Research on Foundation Models в 2021 году в работе On the Opportunities and Risks of Foundation Models, ставшей одной из наиболее цитируемых обзорных работ по современной архитектуре систем искусственного интеллекта.

Определение

В классическом определении фундаментальная модель обладает двумя ключевыми свойствами:

  • обучается на широкомасштабных данных общего назначения (broad data at scale);
  • может быть адаптирована для множества различных последующих задач (downstream tasks) без обучения новой модели "с нуля".

Таким образом, фундаментальная модель представляет собой не законченное прикладное решение, а универсальную основу, из которой строятся специализированные модели.

История

До появления фундаментальных моделей большинство систем машинного обучения создавались под конкретную задачу:

В 2018–2020 годах стало очевидно, что масштабное предварительное обучение на неразмеченных данных позволяет получать универсальные представления объектов.

В области обработки естественного языка важную роль сыграли модели

Позже аналогичная парадигма распространилась на изображения (CLIP, DINO, SAM), мультимодальные данные (Flamingo, PaLI, GPT-4V) и биологические последовательности.

Основная идея

Фундаментальная модель обучается не решению одной конкретной задачи, а моделированию структуры большого массива данных.

В зависимости от модальности используются различные цели обучения:

После такого предварительного обучения модель можно адаптировать к новой задаче значительно дешевле, чем обучать новую модель.

Схематически процесс выглядит следующим образом:

Большой корпус данных
          ↓
Предварительное обучение
          ↓
Фундаментальная модель
          ↓
 ┌────────┼─────────┐
 ↓        ↓         ↓
Дообучение Prompting RAG
 ↓        ↓         ↓
Прикладные системы

Отличия от классического transfer learning

Хотя фундаментальные модели основаны на идеях перенос обучения, между ними существуют принципиальные различия.

Классический перенос обучения

Архитектуры

Наиболее распространёнными архитектурами фундаментальных моделей являются

Практически все современные большие языковые модели основаны на архитектуре Transformer.

Методы адаптации

После предварительного обучения фундаментальная модель может использоваться различными способами.

Полное дообучение

Все параметры модели обновляются на новой задаче.

Преимущества:

  • высокая точность;
  • максимальная адаптация.

Недостаток — высокая вычислительная стоимость.

Parameter-Efficient Fine-Tuning

В современных системах широко используются методы

Они позволяют обучать лишь небольшую часть параметров модели.

In-context learning

Некоторые фундаментальные модели способны решать новую задачу исключительно по нескольким примерам во входном запросе без изменения весов модели.

Это свойство стало одной из отличительных особенностей современных больших языковых моделей.

Масштабирование

Одной из причин успеха фундаментальных моделей являются так называемые законы масштабирования (Scaling Laws).

Экспериментально было показано, что увеличение

  • числа параметров;
  • объёма обучающих данных;
  • вычислительных ресурсов

ведёт к предсказуемому улучшению качества модели в широком диапазоне задач.

Данное наблюдение легло в основу разработки современных больших языковых моделей.

Эмерджентные свойства

При увеличении размера модели начинают проявляться способности, отсутствовавшие у более компактных моделей:

  • решение новых задач без специального обучения;
  • многошаговые рассуждения;
  • генерация программного кода;
  • перенос знаний между предметными областями;
  • мультимодальное понимание.

Такие свойства получили название эмерджентных (Emergent Abilities). Несмотря на большое количество эмпирических наблюдений, механизмы их возникновения остаются предметом активных исследований.

Примеры фундаментальных моделей

Язык

Компьютерное зрение

Генерация изображений

Мультимодальные модели

Преимущества

Основные достоинства фундаментальных моделей:

  • универсальность;
  • переносимость знаний;
  • высокая эффективность адаптации;
  • возможность обучения на неразмеченных данных;
  • единая инфраструктура для множества приложений;
  • быстрое внедрение новых прикладных систем.

Ограничения

Несмотря на впечатляющие результаты, фундаментальные модели имеют ряд существенных ограничений.

Высокая стоимость

Предварительное обучение крупнейших моделей требует тысяч графических процессоров и миллионов долларов вычислительных затрат.

Галлюцинации

Большие языковые модели способны генерировать правдоподобную, но ложную информацию.

= Смещения

Модель наследует статистические закономерности обучающих данных, включая различные виды социальных и культурных смещений.

Интерпретируемость

Причины принятия конкретного решения моделью часто остаются неизвестными.

Экологические издержки

Обучение крупнейших моделей сопровождается значительным энергопотреблением и углеродным следом.

Эти проблемы активно обсуждаются в современной научной литературе.

Современные направления исследований

Наиболее активно развиваются следующие направления:

  • открытые фундаментальные модели;
  • мультимодальные модели;
  • агентные системы на основе фундаментальных моделей;
  • методы эффективного дообучения;
  • интерпретируемость;
  • оценка безопасности;
  • механистическая интерпретация нейронных сетей;
  • обучение на синтетических данных.

См. также

Примечания

Литература

  • Bommasani R., Hudson D. A., Adeli E. и др. On the Opportunities and Risks of Foundation Models // arXiv. — 2021.
  • Brown T. B., Mann B., Ryder N. и др. Language Models are Few-Shot Learners // NeurIPS. — 2020.
  • Kapoor S., Bommasani R. и др. On the Societal Impact of Open Foundation Models // arXiv. — 2024.
  • Vaswani A., Shazeer N., Parmar N. и др. Attention Is All You Need // NeurIPS. — 2017.
  • Goodfellow I., Bengio Y., Courville A. Deep Learning. — MIT Press, 2016.