Большая языковая модель

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск

Emil Petrov (Обсуждение | вклад)
(Новая статья о больших языковых моделях (LLM), написана с Claude Sonnet 4)
К следующему изменению →

Версия 10:43, 16 июня 2026

Статья написана с использованием LLM Claude Sonnet 4 и проверена участником Emil Petrov Emil Petrov 14:43, 16 июня 2026 (MSD)

Промпт приводится полностью в Обсуждение:Большая языковая модель


Содержание

Больша́я языкова́я мо́дель (англ. large language model, LLM) — класс нейронных сетей, обученных на огромных корпусах текстов и способных генерировать, анализировать и преобразовывать текст на естественном языке. Современные LLM, как правило, строятся на архитектуре трансформера и содержат от нескольких миллиардов до триллионов параметров. Наиболее известные представители — серии GPT (OpenAI), Gemini (Google DeepMind), Claude (Anthropic) и LLaMA (Meta AI).

Определение и масштаб

Понятие «большая» не имеет точной границы и исторически смещалось: модели, считавшиеся огромными в 2018 году (BERT — 340 млн параметров), сегодня воспринимаются как небольшие. Практически, LLM — это языковая модель, обученная на корпусе объёмом от десятков до триллионов токенов при вычислительном бюджете, делающем обучение недоступным для большинства академических организаций без специализированного оборудования.

Языковая модель формально задаёт вероятностное распределение над последовательностями токенов. Авторегрессионная модель факторизует вероятность последовательности как произведение условных вероятностей:

P(x_1, x_2, ldots, x_n) = prod_{t=1}^{n} P(x_t mid x_1, ldots, x_{t-1}).

На каждом шаге t модель предсказывает распределение по словарю, из которого семплируется следующий токен.

Предобучение

Цель и данные

LLM обучаются методом самообучения (self-supervised learning): обучающий сигнал извлекается непосредственно из текстов без ручной разметки. Наиболее распространены две задачи:

  • Языковое моделирование (causal language modeling, CLM) — предсказание следующего токена по всем предыдущим. Используется в моделях семейства GPT.
  • Маскированное языковое моделирование (masked language modeling, MLM) — предсказание замаскированных токенов по контексту слева и справа. Используется в BERT и его вариантах.

Корпус данных собирается из Common Crawl (веб-страницы), книг (Books3, Gutenberg), научных статей, кода (GitHub), Википедии и других источников. Для моделей GPT-4, LLaMA, Claude объём обучающих данных составляет от нескольких сотен миллиардов до нескольких триллионов токенов.

Вычислительные законы масштабирования

Исследования Kaplan et al. (2020) и Hoffmann et al. (2022, «Chinchilla») установили, что потери языковой модели убывают как степенная функция от числа параметров N и объёма обучающих данных D:

L(N, D) approx A cdot N^{-alpha} + B cdot D^{-�eta} + L_infty,

где alpha approx �eta approx 0{,}5, а L_infty — нижняя граница ошибки, обусловленная шумом данных. Модели Chinchilla (70 млрд параметров, 1{,}4 трлн токенов) показали, что при фиксированном бюджете вычислений оптимально иметь меньшую модель, обученную на бо́льшем объёме данных.

Тонкая настройка (fine-tuning)

Предобученная LLM часто дообучается под конкретные задачи. Наиболее влиятельным методом стало обучение с подкреплением из обратной связи человека (RLHF), включающее:

  1. Дообучение с учителем (SFT) на демонстрациях правильного поведения.
  2. Обучение модели вознаграждения (reward model) на попарных предпочтениях людей.
  3. Оптимизацию политики с помощью алгоритма PPO или аналогов.

Это позволяет выровнять поведение модели с человеческими ценностями и предпочтениями (alignment).

Альтернативные методы тонкой настройки: LoRA (Low-Rank Adaptation), QLoRA, DPO (Direct Preference Optimization), prefix-tuning. Они позволяют дообучать модели с меньшим числом обучаемых параметров и меньшими вычислительными затратами.

Возникающие способности

При увеличении числа параметров LLM демонстрируют возникающие способности (emergent abilities) — возможности, неожиданно появляющиеся при достижении определённого масштаба и практически отсутствующие у меньших моделей. К ним относятся:

  • Решение многошаговых логических задач через цепочку рассуждений (Chain-of-Thought, CoT).
  • Обучение по нескольким примерам в контексте (few-shot in-context learning) без обновления весов.
  • Выполнение инструкций, не встречавшихся при обучении (instruction following).
  • Простейшие арифметические операции, написание кода, перевод без специализированного обучения.

Природа этих способностей остаётся предметом научной дискуссии: часть исследователей считает их подлинными emergent properties, другие объясняют артефактами метрик оценки.

Применения

LLM нашли применение в широком спектре задач:

  • Генерация текста — написание статей, кода, рекламных материалов, сценариев.
  • Вопросно-ответные системы — поиск с семантическим пониманием запроса (retrieval-augmented generation, RAG).
  • Программирование — автодополнение кода (GitHub Copilot), генерация тестов, объяснение кода.
  • Научные исследования — обзор литературы, генерация гипотез, анализ данных.
  • Образование — персонализированные объяснения, адаптивные учебные программы.
  • Мультимодальные системы — понимание и генерация изображений совместно с текстом (GPT-4V, Gemini, Claude).

Ограничения и риски

  • Галлюцинации — модели уверенно генерируют фактически неверные утверждения.
  • Сдвиг обучающего распределения — поведение модели может существенно меняться за пределами данных предобучения.
  • Предвзятости (bias) — LLM воспроизводят и усиливают предвзятости, присутствующие в обучающих данных.
  • Безопасность — возможность злоупотреблений (дезинформация, фишинг, синтез вредоносного контента).
  • Непрозрачность — механизм принятия решений остаётся слабо интерпретируемым (см. interpretability).

Исторические вехи

Год Модель Параметры Организация
2018 BERT-Large 340 млн Google
2019 GPT-2 1,5 млрд OpenAI
2020 GPT-3 175 млрд OpenAI
2022 ChatGPT (GPT-3.5) ~175 млрд OpenAI
2023 GPT-4 ~1 трлн (оценка) OpenAI
2023 LLaMA 2 70 млрд Meta AI
2024 Gemini Ultra неизвестно Google DeepMind
2024 Claude 3 Opus неизвестно Anthropic

См. также

Примечания

Литература