РКО. Данные

Данные

На протяжении всего конкурса участники работают с одними и теми же объявлениями, однако на каждом этапе к уже имеющимся данным добавляются новые.
Целевым признаком, который необходимо предсказать является категория объявления. Категория представляет собой 4й уровень иерархического классификатора.
На первом этапе участникам доступны только изображения, содержащиеся в объявлениях (в формате .jpg, в среднем по 2.4 изображения на объявление), на втором этапе к изображениям добавляются заголовки объявлений, на третьем — описания и цены, содержащиеся в объявлениях.
Обучающая выборка содержит 388 000 объявлений, классифицированных на 194 категории. Эта выборка используется участниками для настройки своих алгоритмов. На протяжении всего конкурса участники работают с одними и теми же объявлениями.
Контрольная выборка содержит 194 000 объявлений: участникам предстоит классифицировать эти объявления по категориям. Эта выборка будет использоваться для составления промежуточного и итогового рейтингов участников.
Файлы train.csv/test.csv имеют следующую структуру:
Название поляОписание поляЭтап предоставления данных
idидентификатор объявления1 этап
imagesвсе картинки для этого объявления (для обучающей выборки разбиты по папкам категорий)1 этап
titleзаголовок объявления 2 этап
descriptionописание объявления3 этап
priceцена, указанная в объявлении 3 этап
targetцелевая категория (число от 0 до 193, только для обучающей выборки) 1 этап
Файл categories.csv содержит соответствие идентификаторов категорий их названиям, а также родительским категориям:
Название поляОписание поля
category_idидентификатор категории
parent_category_idидентификатор родительской категории
category_nameназвание категории