РКО. Данные | DataRing.ru

На протяжении всего конкурса участники работают с одними и теми же объявлениями, однако на каждом этапе к уже имеющимся данным добавляются новые.

Целевым признаком, который необходимо предсказать является категория объявления. Категория представляет собой 4й уровень иерархического классификатора.

На первом этапе участникам доступны только изображения, содержащиеся в объявлениях (в формате .jpg, в среднем по 2.4 изображения на объявление), на втором этапе к изображениям добавляются заголовки объявлений, на третьем — описания и цены, содержащиеся в объявлениях.

Обучающая выборка содержит 388 000 объявлений, классифицированных на 194 категории. Эта выборка используется участниками для настройки своих алгоритмов. На протяжении всего конкурса участники работают с одними и теми же объявлениями.

Контрольная выборка содержит 194 000 объявлений: участникам предстоит классифицировать эти объявления по категориям. Эта выборка будет использоваться для составления промежуточного и итогового рейтингов участников.

Файлы train.csv/test.csv имеют следующую структуру:

Название поля	Описание поля	Этап предоставления данных
id	идентификатор объявления	1 этап
images	все картинки для этого объявления (для обучающей выборки разбиты по папкам категорий)	1 этап
title	заголовок объявления	2 этап
description	описание объявления	3 этап
price	цена, указанная в объявлении	3 этап
target	целевая категория (число от 0 до 193, только для обучающей выборки)	1 этап

Файл categories.csv содержит соответствие идентификаторов категорий их названиям, а также родительским категориям:

Название поля	Описание поля
category_id	идентификатор категории
parent_category_id	идентификатор родительской категории
category_name	название категории