Фундаментальная модель

Материал из MachineLearning.

Версия от 13:32, 30 июня 2026; Liliia Davletova (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Перейти к: навигация, поиск

Статья написана с использованием LLM ChatGPT 5.5 и проверена участником Liliia Davletova

Содержание

1 Фундаментальная модель

Фундаментальная модель

Фундаментальная модель (Foundation Model) — класс моделей машинного обучения, предварительно обученных на очень больших и разнообразных наборах данных, способных служить универсальной основой для решения широкого спектра прикладных задач посредством дообучения, обучения с инструкциями, контекстного обучения (in-context learning), RAG и других методов адаптации.

Термин был предложен исследователями Stanford Center for Research on Foundation Models в 2021 году в работе On the Opportunities and Risks of Foundation Models, ставшей одной из наиболее цитируемых обзорных работ по современной архитектуре систем искусственного интеллекта.

Определение

В классическом определении фундаментальная модель обладает двумя ключевыми свойствами:

обучается на широкомасштабных данных общего назначения (broad data at scale);
может быть адаптирована для множества различных последующих задач (downstream tasks) без обучения новой модели "с нуля".

Таким образом, фундаментальная модель представляет собой не законченное прикладное решение, а универсальную основу, из которой строятся специализированные модели.

История

До появления фундаментальных моделей большинство систем машинного обучения создавались под конкретную задачу:

В 2018–2020 годах стало очевидно, что масштабное предварительное обучение на неразмеченных данных позволяет получать универсальные представления объектов.

В области обработки естественного языка важную роль сыграли модели

Позже аналогичная парадигма распространилась на изображения (CLIP, DINO, SAM), мультимодальные данные (Flamingo, PaLI, GPT-4V) и биологические последовательности.

Основная идея

Фундаментальная модель обучается не решению одной конкретной задачи, а моделированию структуры большого массива данных.

В зависимости от модальности используются различные цели обучения:

После такого предварительного обучения модель можно адаптировать к новой задаче значительно дешевле, чем обучать новую модель.

Схематически процесс выглядит следующим образом:

Большой корпус данных
          ↓
Предварительное обучение
          ↓
Фундаментальная модель
          ↓
 ┌────────┼─────────┐
 ↓        ↓         ↓
Дообучение Prompting RAG
 ↓        ↓         ↓
Прикладные системы

Отличия от классического transfer learning

Хотя фундаментальные модели основаны на идеях перенос обучения, между ними существуют принципиальные различия.

Классический перенос обучения																	Архитектуры Наиболее распространёнными архитектурами фундаментальных моделей являются Transformer; Vision Transformer; Mixture of Experts; диффузионные модели; мультимодальные трансформеры. Практически все современные большие языковые модели основаны на архитектуре Transformer. Методы адаптации После предварительного обучения фундаментальная модель может использоваться различными способами. Полное дообучение Все параметры модели обновляются на новой задаче. Преимущества: высокая точность; максимальная адаптация. Недостаток — высокая вычислительная стоимость. Parameter-Efficient Fine-Tuning В современных системах широко используются методы LoRA; QLoRA; Adapter; Prefix Tuning; Prompt Tuning. Они позволяют обучать лишь небольшую часть параметров модели. In-context learning Некоторые фундаментальные модели способны решать новую задачу исключительно по нескольким примерам во входном запросе без изменения весов модели. Это свойство стало одной из отличительных особенностей современных больших языковых моделей. Масштабирование Одной из причин успеха фундаментальных моделей являются так называемые законы масштабирования (Scaling Laws). Экспериментально было показано, что увеличение числа параметров; объёма обучающих данных; вычислительных ресурсов ведёт к предсказуемому улучшению качества модели в широком диапазоне задач. Данное наблюдение легло в основу разработки современных больших языковых моделей. Эмерджентные свойства При увеличении размера модели начинают проявляться способности, отсутствовавшие у более компактных моделей: решение новых задач без специального обучения; многошаговые рассуждения; генерация программного кода; перенос знаний между предметными областями; мультимодальное понимание. Такие свойства получили название эмерджентных (Emergent Abilities). Несмотря на большое количество эмпирических наблюдений, механизмы их возникновения остаются предметом активных исследований. Примеры фундаментальных моделей Язык BERT; RoBERTa; T5; GPT-3; GPT-4; Llama; Gemma; Mistral. Компьютерное зрение CLIP; DINO; Segment Anything Model; EVA; Florence-2. Генерация изображений Stable Diffusion; Imagen; DALL-E; Flux. Мультимодальные модели Flamingo; PaLI; Kosmos; GPT-4V. Преимущества Основные достоинства фундаментальных моделей: универсальность; переносимость знаний; высокая эффективность адаптации; возможность обучения на неразмеченных данных; единая инфраструктура для множества приложений; быстрое внедрение новых прикладных систем. Ограничения Несмотря на впечатляющие результаты, фундаментальные модели имеют ряд существенных ограничений. Высокая стоимость Предварительное обучение крупнейших моделей требует тысяч графических процессоров и миллионов долларов вычислительных затрат. Галлюцинации Большие языковые модели способны генерировать правдоподобную, но ложную информацию. = Смещения Модель наследует статистические закономерности обучающих данных, включая различные виды социальных и культурных смещений. Интерпретируемость Причины принятия конкретного решения моделью часто остаются неизвестными. Экологические издержки Обучение крупнейших моделей сопровождается значительным энергопотреблением и углеродным следом. Эти проблемы активно обсуждаются в современной научной литературе. Современные направления исследований Наиболее активно развиваются следующие направления: открытые фундаментальные модели; мультимодальные модели; агентные системы на основе фундаментальных моделей; методы эффективного дообучения; интерпретируемость; оценка безопасности; механистическая интерпретация нейронных сетей; обучение на синтетических данных. См. также Машинное обучение Глубокое обучение Нейронная сеть Transformer Большая языковая модель Самоконтролируемое обучение Перенос обучения Дообучение LoRA Контекстное обучение Генеративный искусственный интеллект Примечания Литература Bommasani R., Hudson D. A., Adeli E. и др. On the Opportunities and Risks of Foundation Models // arXiv. — 2021. Brown T. B., Mann B., Ryder N. и др. Language Models are Few-Shot Learners // NeurIPS. — 2020. Kapoor S., Bommasani R. и др. On the Societal Impact of Open Foundation Models // arXiv. — 2024. Vaswani A., Shazeer N., Parmar N. и др. Attention Is All You Need // NeurIPS. — 2017. Goodfellow I., Bengio Y., Courville A. Deep Learning. — MIT Press, 2016. What are Foundation Models?

Источник — «http://www.machinelearning.ru/wiki/index.php?title=%D0%A4%D1%83%D0%BD%D0%B4%D0%B0%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C»

Фундаментальная модель

Материал из MachineLearning.

Содержание

Фундаментальная модель

Определение

История

Основная идея

Отличия от классического transfer learning

Архитектуры

Методы адаптации

Полное дообучение

Parameter-Efficient Fine-Tuning

In-context learning

Масштабирование

Эмерджентные свойства

Примеры фундаментальных моделей

Язык

Компьютерное зрение

Генерация изображений

Мультимодальные модели

Преимущества

Ограничения

Высокая стоимость

Галлюцинации

= Смещения

Интерпретируемость

Экологические издержки

Современные направления исследований

См. также

Примечания

Литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты