Данные
На протяжении всего конкурса участники работают с одними и теми же объявлениями, однако на каждом этапе к уже имеющимся данным добавляются новые.
Целевым признаком, который необходимо предсказать является категория объявления. Категория представляет собой 4й уровень иерархического классификатора.
На первом этапе участникам доступны только изображения, содержащиеся в объявлениях (в формате .jpg, в среднем по 2.4 изображения на объявление), на втором этапе к изображениям добавляются заголовки объявлений, на третьем — описания и цены, содержащиеся в объявлениях.
Обучающая выборка содержит 388 000 объявлений, классифицированных на 194 категории. Эта выборка используется участниками для настройки своих алгоритмов. На протяжении всего конкурса участники работают с одними и теми же объявлениями.
Контрольная выборка содержит 194 000 объявлений: участникам предстоит классифицировать эти объявления по категориям. Эта выборка будет использоваться для составления промежуточного и итогового рейтингов участников.
Файлы train.csv/test.csv имеют следующую структуру:
Название поля | Описание поля | Этап предоставления данных |
---|---|---|
id | идентификатор объявления | 1 этап |
images | все картинки для этого объявления (для обучающей выборки разбиты по папкам категорий) | 1 этап |
title | заголовок объявления | 2 этап |
description | описание объявления | 3 этап |
price | цена, указанная в объявлении | 3 этап |
target | целевая категория (число от 0 до 193, только для обучающей выборки) | 1 этап |
Файл categories.csv содержит соответствие идентификаторов категорий их названиям, а также родительским категориям:
Название поля | Описание поля |
---|---|
category_id | идентификатор категории |
parent_category_id | идентификатор родительской категории |
category_name | название категории |