Конкурс Avito-2016: Распознавание категории объявления

Материал из MachineLearning.

(Перенаправлено с Avito-2016-2)
Перейти к: навигация, поиск

Содержание

Изображение:Avito-2016-06-13-top pic-01.png

Конкурс по распознаванию категории объявления Avito-2016 — это конкурс по решению прикладной задачи из области анализа изображений и текстов.

Организаторы конкурса – компания «КЕХ еКоммерц» (сайт объявлений Avito) и ее партнер – компания Форексис. Информационные партнеры конкурса - 11-я Международная конференция «Интеллектуализация обработки информации» и компания Nvidia (тематический ресурс Nvidia Deeplearning).

Призовой фонд конкурса - 500 000 рублей.

Для участия в конкурсе и получения доступа к данным необходимо пройти процедуру регистрации описанную в разделе Регистрация участников. Вопросы организаторам конкурса можно задавать по электронной почте на адрес competitions@forecsys.ru с указанием в теме письма «Avito-2016: Вопрос».

С предыдущими конкурсами Avito-2014, Avito-2015 и Avito-2016 можно ознакомиться на соответствующих страницах.

С информацией об организаторе конкурса, правилах его проведения, количестве наград, сроках, месте и порядке их получения можно ознакомиться здесь.

Если Вы хотите узнавать о новых конкурсах еще до их старта, напишите письмо на адрес competitions@forecsys.ru с темой «Подписка».

Предварительный рейтинг участников.

Новая официальная страница конкурса

Официальная страница конкурса теперь расположена на портале DataRing.ru.


Ключевые даты конкурса

13 июня 2016 года – Старт конкурса

1 этап (изображения):

13 июня 2016 года – Старт 1 этапа
до 23:59 24 июля 2016 года – Предоставление результатов участниками и регулярный расчет предварительного рейтинга
до 23:59 31 июля 2016 года – Определение победителей 1 этапа

2 этап (изображения + заголовки):

01 августа 2016 года – Старт 2 этапа
до 23:59 21 августа 2016 года – Предоставление результатов участниками и регулярный расчет предварительного рейтинга
до 23:59 28 августа 2016 года – Определение победителей 2 этапа

3 этап (изображения + заголовки + описания + цены):

29 августа 2016 года – Старт 3 этапа
до 23:59 28 сентября 2016 года – Предоставление результатов участниками и регулярный расчет предварительного рейтинга
до 23:59 02 октября 2016 года – Определение победителей 3 этапа

Описание задачи

По правилам Avito при создании объявления пользователь должен указать категорию объявления. При этом любой человек с весьма хорошей точностью сможет определить категорию по изображению товара, заголовку, текстовому описанию и цене объявления.

Цель конкурса – создание эффективного алгоритма определения категории объявления.

Конкурс состоит из трех последовательных этапов. На каждом этапе участникам предстоит решать задачу определения категории объявления, при этом набор признаков объявлений будет постепенно расширяться. На каждом последующем этапе зарегистрированным участникам будут доступны как дополнительные данные, так и методы победителей предыдущего этапа. Для помощи в решении первого этапа всем зарегистрированным участникам будет предоставлена методика победителя предыдущего конкурса, в котором требовалось построить алгоритм распознавания марки и модели автомобиля по его изображению.

Ниже приведены примеры фотографий, заголовков, описаний и цен продаваемых товаров.

Изображение
Заголовок iPhone 5 16GB white Платье на выпускной Замок Павильон по продаже шаурмы в проходном месте
Описание Телефон в идеальном состоянии,пользовалась девушка.
Обмен не предлагать.
РБ/у один раз.
Торг.
Летний замок принцессы Софии - 2 этажа, мебель. Продается бизнес по продаже продуктов быстрого питания в проходном месте! Территориально м.авиамоторная...
Цена 11 000 руб. 2 800 руб. 800 руб. 200 000 руб.
Категория Бытовая электроника/
Телефоны/
iPhone
Личные вещи/
Одежда, обувь, аксессуары/
Женская одежда/
Платья и юбки
Личные вещи/
Товары для детей и игрушки/
Игрушки
Для бизнеса/
Готовый бизнес/
Общественное питание


Описание данных

Целевым признаком, который необходимо предсказать является категория объявления. Категория представляет собой 4й уровень иерархического классификатора.

На первом этапе для объявлений известны только множества их изображений (в формате .jpg, в среднем по 2.4 изображения на объявление).
На втором этапе к изображениям дополнительно предоставляются заголовки объявлений.
На третьем этапе к изображениям и заголовкам дополнительно предоставляются описания и цены объявлений.

Обучающая выборка состоит из 388 000 объявлений, классифицированных на 194 категории. Эта выборка используется участниками для настройки своих алгоритмов. На протяжении всего конкурса участники работают с одними и теми же объявлениями. На каждом этапе все имеющиеся объявления будут обогащаться дополнительными данными.

Контрольная выборка состоит из 194 000 объявлений. Участникам предстоит классифицировать эти объявления по категориям. Эта выборка будет использоваться для составления промежуточного и итогового рейтингов участников.

Текстовая информация об объектах, а также разметка обучающей выборки представлена в файлах train.csv/test.csv в следующем формате:

Id - ID объявления
Images - все картинки для этого объявления (для обучающей выборки разбиты по папкам категорий)
Title - заголовок объявления (выдается на 2 этапе)
Description - описание объявления (выдается на 3 этапе)
Price - цена, указанная в объявлении (выдается на 3 этапе)
Target - целевая категория (число от 0 до 193, только для обучающей выборки)

Соответствие идентификаторов категорий их названиям, а также родительским категориям указано в файле-словаре categories.csv в следующем формате:

category_id - ID категории
parent_category_id - ID родительской категории
category_name - название категории

Данные предоставляются после регистрации в конкурсе.

Внешние данные

Для построения и обучения своих моделей участники вправе использовать любые внешние модели и коллекции, которые разрешены к коммерческому использованию. При этом участник обязан согласовать их использование с организаторами. В конце каждого этапа кандидаты на призовые места обязаны предоставить описание алгоритма, в том числе информацию об используемых внешних данных.

Функционал качества алгоритма распознавания

Для каждого объявления i точность распознавания категории q_i рассчитывается как взвешенная сумма совпадений оценок категории с истинными ответами на каждом уровне:

q_i=0.3\cdot M_i^1+0.3\cdot M_i^2+0.2\cdot M_i^3+0.2\cdot M_i^4,

где M_i^l равно 1, если категория l-го уровня для объявления i угадана верно, иначе 0.


Таким образом, q_i=1 только в том случае, если категория угадана верно вплоть до последнего уровня.
Если M_i^l=0, то это автоматически означает, что M_i^{l+1}=0.


Общее качество алгоритма рассчитывается как средняя точность распознавания категории всех объявлений:

Q=\frac{1}{N}\sum_i{q_i},

где N - количество объвлений.

Регистрация участников

Для регистрации в конкурсе потенциальному участнику необходимо прислать письмо по электронной почте на адрес competitions@forecsys.ru с темой «Avito-2016: Регистрация». Регистрационное письмо должно содержать никнейм участника – имя/псевдоним, которое будет отображаться в предварительном рейтинге участников, формируемом в течение первого этапа и источник информации о конкурсе. Адрес электронной почты участника используется для его идентификации.

Регистрация возможна в течение всего срока конкурса на любом этапе.

Заявкой на регистрацию в конкурсе Вы подтверждаете, что ознакомились и согласны с Правилами конкурса.

Порядок и сроки предоставления участниками результатов

Участники настраивают свои алгоритмы классификации объявлений, используя обучающую выборку.

Для проверки качества алгоритма и составления рейтинга результатов каждый участник отправляет файл с результатами работы алгоритма на контрольной выборке по электронной почте на адрес competitions@forecsys.ru, указав в теме письма «Конкурс Avito-2016: Результаты Никнейм участника» (письмо должно быть отправлено с того же электронного адреса, что и при регистрации участника).

Результаты представляются в csv-формате (образец файла будет доступен после старта конкурса). Рекомендуемый формат имени файла “YYYYMMDD_competition_avito_2016_Никнейм_участника_Results.csv”. Файл с результатами содержит два столбца с заголовками в первой строчке: в первом столбце (Id) указаны идентификаторы объявлений, а во втором (Target) – идентификаторы класса, к которому алгоритм сопоставил эти объявления. Пропуски и строковые значения не допускаются.

Два раза в неделю – понедельник и четверг до 23:59 по московскому времени – заканчивается прием писем с результатами для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен предварительный рейтинг результатов участников. Для расчета рейтинга используются результаты участника, полученные в последнем письме до указанного времени.

Предварительный рейтинг участников будет рассчитан по 50% объявлений контрольной выборки. Итоговый рейтинг будет рассчитан на оставшимся 50% контрольной выборки.

Для расчета итогового рейтинга участников будет взят последний присланный до конца соответствующего этапа результат.

После окончания срока приема результатов и выявления лидеров участники, претендующие на победу, предоставляют свои программы и описания алгоритмов.

Процедура определения победителей и призовой фонд

Призовой фонд конкурса - 500 000 рублей.

На каждом этапе награждаются два первых места.

Этап 1:

1-е место 150 000 рублей.
2-е место 50 000 рублей.

Этап 2:

1-е место 100 000 рублей.
2-е место 50 000 рублей.

Этап 3:

1-е место 100 000 рублей.
2-е место 50 000 рублей.

Вознаграждения указаны без учета налогов.

Победителем этапа (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке.
Второе место займет участник, алгоритм которого продемонстрировал второй по качеству результат на контрольной выборке.

Информация о победителях будет опубликована на странице конкурса.

Воспроизводимость результата работы алгоритма участника с использованием предоставляемой участником программы является обязательным условием признания этого участника победителем конкурса. Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов работы алгоритма является обязанностью участника. Кроме того, участник должен подготовить описание алгоритма.

В начале следующего этапа всем участникам станет доступна информация об основных подходах призеров предыдущего этапа, а также обо всех используемых ими внешних моделях и коллекциях.

Требования к программному обеспечению

Призовое место участник может занять только в том случае, если он использовал программное обеспечение (ПО), которое не требует лицензии для коммерческого использования.

К ПО предъявляется требование – возможность воспроизведения организаторами результатов работы алгоритмов участников.

Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника.

Требования к описанию алгоритма распознавания

Требуется предоставить файл формата .doc, docx или .pdf с описанием алгоритма на русском языке по следующему шаблону:

  1. Идентификация
    Никнейм и адрес электронной почты участника.
  2. Аннотация
    4-6 предложений, объясняющих общий подход к построению алгоритма, включающих, например, принципы генерации или отбора признаков и метод обучения.
  3. Внешние данные
    Список всех используемых внешних моделей и коллекций.
  4. Генерация и отбор признаков
    Описание метода генерации и/или отбора признаков изображений. Список и общее описание выбранных признаков.
  5. Процесс обучения
    Описание деталей метода обучения, использованного для построения алгоритма. Если комбинировались или объединялись разные методы, опишите каким образом.
  6. Описание программы алгоритма
    Для каждой функции:
    • входные переменные
    • выходные переменные
    • что функция делает
  7. Зависимости
    Список зависимостей, библиотек, функций, пакетов или код других сторонних компаний, использованных для создания алгоритма.
  8. Инструкция по воспроизведению (аналог README файла)
    Пошаговая инструкция для создания проекта из приведенного кода.
  9. Дополнительные комментарии и наблюдения
    Любые дополнительные комментарии или наблюдения по поводу данных, алгоритма или процесса улучшения алгоритма.
  10. Графики
    Графики или картинки, которые были сделаны из данных или в процессе обучения и которые показались полезными или интересными.
  11. Ссылки
    Необходимые ссылки или другие внешние источники информации.


Подстраницы

Конкурс Avito-2016: Распознавание категории объявления/Рейтинг участников
Личные инструменты