From b54a05ad3e63358fc8dbadcc3e0c3857d55c9920 Mon Sep 17 00:00:00 2001 From: michaelpetroff <80793117+michaelpetroff@users.noreply.github.com> Date: Tue, 2 Nov 2021 18:58:37 +0300 Subject: [PATCH] Fix typo --- .../homework-practice-04-classification.ipynb | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/2021-fall/homeworks-practice/homework-practice-04-classification.ipynb b/2021-fall/homeworks-practice/homework-practice-04-classification.ipynb index 30495d03..9b32c8c3 100644 --- a/2021-fall/homeworks-practice/homework-practice-04-classification.ipynb +++ b/2021-fall/homeworks-practice/homework-practice-04-classification.ipynb @@ -367,7 +367,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Как можно было заменить, one-hot-кодирование может сильно увеличивать количество признаков, что сказывается на памяти, особенно, если некоторый признак имеет большое количество значений. Эту проблему решает другой способ кодирования категориальных признаков — mean-target encoding (для простоты будем называть это счётчиками). Основная идея в том, что нам важны не сами категории, а значения целевой переменной, которые имеют объекты этой категории. Каждый категориальный признак мы заменим средним значением целевой переменной по всем объектам этой же категории:\n", + "Как можно было заметить, one-hot-кодирование может сильно увеличивать количество признаков, что сказывается на памяти, особенно, если некоторый признак имеет большое количество значений. Эту проблему решает другой способ кодирования категориальных признаков — mean-target encoding (для простоты будем называть это счётчиками). Основная идея в том, что нам важны не сами категории, а значения целевой переменной, которые имеют объекты этой категории. Каждый категориальный признак мы заменим средним значением целевой переменной по всем объектам этой же категории:\n", "$$\n", "g_j(x, X) = \\frac{\\sum_{i=1}^{l} [f_j(x) = f_j(x_i)][y_i = +1]}{\\sum_{i=1}^{l} [f_j(x) = f_j(x_i)]}\n", "$$\n",