Объект
Материал из MachineLearning.
| | Статья написана с использованием LLM GPT-5.5 Thinking и проверена участником Andrei Blinov 14:00, 4 июля 2026 (MSD) |
Объект в машинном обучении — элемент предметной области, для которого строится описание, вычисляется прогноз, определяется принадлежность к классу или находится скрытая структура. Объект обычно обозначается буквой и рассматривается как элемент некоторого множества объектов
.
Примеры объектов: пациент, изображение, текстовый документ, пользователь, товар, поисковый запрос, транзакция, временной фрагмент сигнала, вершина графа. В зависимости от задачи объект может быть описан исходными данными, набором признаков, эмбеддингом или более сложной структурой.
Интуитивное описание
Объект — это то, о чём алгоритм должен что-то узнать или что-то предсказать. В задаче классификации объекту нужно поставить в соответствие класс. В задаче регрессии объекту нужно поставить в соответствие числовой ответ. В задаче кластеризации объект нужно отнести к группе похожих объектов.
Например:
- в задаче распознавания рукописных цифр объектом является изображение цифры;
- в медицинской диагностике объектом может быть пациент или отдельный медицинский снимок;
- в кредитном скоринге объектом может быть заявка на кредит;
- в рекомендательной системе объектом может быть пара «пользователь—товар»;
- в анализе текстов объектом может быть документ, предложение или токен.
Выбор того, что считать объектом, является частью постановки задачи. Один и тот же исходный набор данных можно разбить на объекты разными способами.
Формальное описание
Пусть — множество объектов. Тогда отдельный объект обозначают как
В задаче обучения по прецедентам обычно задана обучающая выборка, состоящая из объектов или пар «объект—ответ». В обучении с учителем объекту соответствует правильный ответ
. Пара
часто называется прецедентом или обучающим примером.
Алгоритм машинного обучения строит правило, которое по объекту выдаёт прогноз:
Здесь — алгоритм или модель,
— объект, а
— предсказанный ответ.
Объект и признаковое описание
Во многих алгоритмах объект нельзя использовать непосредственно. Его сначала преобразуют в признаковое описание — набор значений признаков. Признак можно понимать как функцию, которая измеряет некоторую характеристику объекта.
Если объект описан признаками , то его признаковое описание можно записать как
Например, объект «квартира» может быть описан признаками: площадь, число комнат, район, этаж, год постройки. Объект «текстовый документ» может быть описан частотами слов, TF-IDF-признаками или эмбеддингом. Объект «изображение» может быть представлен пикселями, признаками сверточной нейронной сети или вектором из скрытого слоя модели.
Признаковое описание должно сохранять информацию, важную для решения задачи. Если признаки не отражают существенные свойства объекта, даже хороший алгоритм может давать плохой прогноз.
Объект и ответ
В обучении с учителем каждому объекту обучающей выборки соответствует ответ. Тип ответа зависит от задачи.
В задаче классификации ответом является метка класса. Например, для письма это может быть метка «спам» или «не спам».
В задаче регрессии ответом является число. Например, для квартиры это может быть цена, а для пациента — прогнозируемое значение медицинского показателя.
В задаче ранжирования ответ может задавать порядок объектов или степень релевантности объекта запросу.
В обучении без учителя правильные ответы обычно не заданы. Алгоритм получает только объекты и должен найти структуру в данных: кластеры, скрытые факторы, низкоразмерное представление или аномалии.
Объект в разных типах задач
В разных задачах машинного обучения термин «объект» имеет близкий смысл, но может соответствовать разным сущностям.
В классификации объект — это элемент, которому нужно присвоить один из заранее заданных классов.
В регрессии объект — это элемент, для которого нужно предсказать числовую величину.
В кластеризации объект — это элемент, который нужно сгруппировать с похожими объектами.
В рекомендательных системах объектом может быть пользователь, товар или пара «пользователь—товар», если требуется предсказать взаимодействие между ними.
В обработке естественного языка объектом может быть документ, предложение, слово, токен или пара текстов. Выбор зависит от того, решается ли задача классификации документов, разметки последовательности, поиска ответа или оценки семантической близости.
В компьютерном зрении объектом может быть изображение целиком, область изображения, кадр видео или последовательность кадров.
В задачах на графах объектом может быть вершина, ребро, подграф или весь граф.
Гранулярность объекта
Гранулярность объекта — уровень, на котором исходные данные разбиваются на отдельные объекты. Неправильный выбор гранулярности может привести к некорректной постановке задачи.
Например, в медицинской задаче объектом может быть пациент, визит пациента, анализ, снимок или отдельная область снимка. Если несколько снимков одного пациента случайно попали и в обучающую, и в тестовую выборку, оценка качества может оказаться завышенной. В таком случае правильнее разбивать данные по пациентам, а не по отдельным снимкам.
В задачах анализа временных рядов объектом может быть весь ряд, окно фиксированной длины или отдельный момент времени. Эти варианты соответствуют разным задачам и разным допущениям о данных.
Объект и выборка
Выборка — это набор объектов, используемый для обучения, настройки или проверки алгоритма. Обычно различают обучающую, валидационную и тестовую выборки.
Обучающая выборка используется для настройки параметров модели. Валидационная выборка используется для выбора модели, настройки гиперпараметров и ранней остановки. Тестовая выборка используется для итоговой оценки качества.
Важно, чтобы объекты в тестовой выборке соответствовали тем объектам, на которых модель будет применяться после обучения. Если распределение объектов в обучающей и рабочей среде существенно различается, качество модели может ухудшиться.
Объект и наблюдение
В статистике близким термином является наблюдение. В машинном обучении часто также используют термины пример, экземпляр, sample, instance и data point. В большинстве прикладных контекстов они близки по смыслу, но акценты различаются.
Слово «объект» подчёркивает предметную сущность: пациента, документ, изображение, товар. Слово «наблюдение» подчёркивает факт регистрации данных. Слово «пример» часто используется в контексте обучения по прецедентам. Слово «экземпляр» часто встречается в англоязычной литературе как перевод instance.
Не следует смешивать объект и его признаковое описание. Один и тот же объект может иметь несколько разных описаний: например, текст можно описать мешком слов, TF-IDF-вектором или эмбеддингом нейронной сети.
Объект в вероятностной постановке
В вероятностной постановке объект можно рассматривать как реализацию случайной величины. Часто предполагают, что объекты обучающей выборки получены из некоторого неизвестного распределения.
В обучении с учителем обычно рассматривают совместное распределение объектов и ответов. Цель обучения — построить алгоритм, который хорошо предсказывает ответ для новых объектов из того же или близкого распределения.
Такой взгляд важен для анализа обобщающей способности. Алгоритм должен не просто запомнить объекты обучающей выборки, а выявить закономерности, которые сохраняются на новых объектах.
Качество описания объекта
Качество модели во многом зависит от того, насколько хорошо выбран объект и его описание. При подготовке данных важно учитывать несколько вопросов.
Во-первых, объект должен соответствовать целевой задаче. Если требуется предсказывать риск для пациента, объектом должен быть пациент или корректно определённый эпизод лечения, а не случайная запись в базе данных без связи с медицинским контекстом.
Во-вторых, признаки объекта должны быть доступны в момент применения модели. Если в признаки попала информация из будущего, возникает утечка данных.
В-третьих, объекты в обучающей и тестовой выборках должны быть разделены корректно. Связанные объекты не должны случайно попадать в разные части выборки, если это приводит к завышенной оценке качества.
В-четвёртых, описание объекта должно быть достаточно информативным, но не избыточно зависеть от случайного шума и технических особенностей сбора данных.
Типичные ошибки
- Путать объект и признак. Объект — это сущность, а признак — характеристика этой сущности.
- Путать объект и ответ. Ответ является целевой величиной, которую требуется предсказать по объекту.
- Путать объект и строку таблицы. В простых задачах объект часто соответствует строке таблицы, но в сложных данных это не всегда так.
- Неправильно выбирать гранулярность объекта. Например, использовать отдельные измерения вместо пациентов или отдельные окна вместо независимых временных рядов.
- Допускать утечку данных. В описание объекта не должна попадать информация, недоступная в момент реального применения модели.
- Считать признаковое описание единственным. Один и тот же объект можно описать разными наборами признаков или разными представлениями.
- Игнорировать зависимость между объектами. Объекты могут быть связаны во времени, принадлежать одному пользователю, одному пациенту или одному источнику данных.
См. также
- Машинное обучение
- Обучающая выборка
- Прецедент
- Признак
- Признаковое описание
- Ответ
- Классификация
- Регрессия
- Кластеризация
- Выборка
Литература
- Воронцов К. В. Математические методы обучения по прецедентам. Курс лекций.
- Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. Springer, 2009.
- Murphy K. P. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.

