Created by: Dmitryv-2024
Сейчас в качестве классификатора используем LogisticRegressionCV из sklearn (как раньше). Можно сделать несколько улучшений:
- LogisticRegressionCV поддерживает class_weight="balanced". Может стоит убрать balance_factor из construct_samples и положится на реализацию sklearn для сильно разбалансированных меток?
- Можно реализовать тренировку своего классификатора. Например: сделать два полносвязных слоя и использовать label smoothing + kl_div loss function (идея из кода к статье DNCC, но у них в классификаторе был один слой, поэтому предлагаю попробовать два слоя, т.к. не уверен что имеет смысл что-то делать с одним слоем, вряд-ли будет лучше логистической регрессии)
В классе Dataset добавил ключ - не разбивать train (по умолчанию делим на два как и раньше), т.к. для тестов нужно чуть больше данных.