diff --git a/2021-fall/homeworks-practice/homework-practice-04-classification.ipynb b/2021-fall/homeworks-practice/homework-practice-04-classification.ipynb index 30495d03..9b32c8c3 100644 --- a/2021-fall/homeworks-practice/homework-practice-04-classification.ipynb +++ b/2021-fall/homeworks-practice/homework-practice-04-classification.ipynb @@ -367,7 +367,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Как можно было заменить, one-hot-кодирование может сильно увеличивать количество признаков, что сказывается на памяти, особенно, если некоторый признак имеет большое количество значений. Эту проблему решает другой способ кодирования категориальных признаков — mean-target encoding (для простоты будем называть это счётчиками). Основная идея в том, что нам важны не сами категории, а значения целевой переменной, которые имеют объекты этой категории. Каждый категориальный признак мы заменим средним значением целевой переменной по всем объектам этой же категории:\n", + "Как можно было заметить, one-hot-кодирование может сильно увеличивать количество признаков, что сказывается на памяти, особенно, если некоторый признак имеет большое количество значений. Эту проблему решает другой способ кодирования категориальных признаков — mean-target encoding (для простоты будем называть это счётчиками). Основная идея в том, что нам важны не сами категории, а значения целевой переменной, которые имеют объекты этой категории. Каждый категориальный признак мы заменим средним значением целевой переменной по всем объектам этой же категории:\n", "$$\n", "g_j(x, X) = \\frac{\\sum_{i=1}^{l} [f_j(x) = f_j(x_i)][y_i = +1]}{\\sum_{i=1}^{l} [f_j(x) = f_j(x_i)]}\n", "$$\n",