Практическая часть Машинное Обучение (ML) лето 2022
-
Очистка данных и обучение моделей. Датасет: https://www.kaggle.com/akshayksingh/kidney-disease-dataset
-
Очистка данных и обучение моделей. Датасет: https://www.kaggle.com/elikplim/forest-fires-data-set
-
Описательный анализ и визуализация данных. Датасет: https://www.kaggle.com/shebrahimi/financial-distress
-
Описательный анализ и визуализация данных. Датасет: https://www.kaggle.com/akshayksingh/kidney-disease-dataset
-
Построение модели и оптимизация гиперпараметров. Датасет: https://www.kaggle.com/kaushiksuresh147/customer-segmentation
-
Построение модели и оптимизация гиперпараметров. Датасет: https://www.kaggle.com/elikplim/forest-fires-data-set
-
Выбор признаков. Датасет: https://www.kaggle.com/amir75/caesarean-section-classification
-
Выбор признаков. Датасет: https://www.kaggle.com/amir75/caesarean-section-classification
9. Исследование влияния обучения без учителя на эффективность обучения. Датасет: https://www.kaggle.com/veer06b/marrket-mix-dataset
10. Исследование влияния обучения без учителя на эффективность обучения. Датасет: https://www.kaggle.com/sachinsharma1123/performance-prediction
Для исследования влияния обучения без учителя на эффективность обучения (задания 9-10) используйте пример от @immortalBan
- Создать ветку от
master
для выполнения своего задания. Наименование ветки:<author>__task_<n>
, например,kovalev__task_01
- Выполнить задание в своей ветке
- Создать
PR
вmaster
Структура репозитория:
├───01 # директория содержащая ваше решение
│ ├───README.md # содержит номер и условие задачи с ссылкой на датасет
│ ├───main.ipynb # jupyter-notebook с решением задания
│ └───... # другие файлы, которые используются в вашем решении
├───02
│ └───...
├───...
├───data # все датасеты из заданий
│ ├───kidney_disease.csv # использование: '../data/kidney_disease.csv'
│ └───...
├───more
│ ├──143 #решение варианта 143
│ └───...
├───.gitignore # добавьте сюда имена файлов, которыми не хотите замусорить репозиторий
├───README.md # вы здесь
└───requirements.txt # файл с версиями используемых библиотек
- Загрузить датасет в Python.
- Описать набор данных и решаемую задачу.
- Выделить целевую переменную и факторные переменные.
- Удалить ненужные данные, проанализировать отсутствующие значения.
- Прокомментировать количественные параметры датасета.
- Разбить выборку на обучающую и тестовую.
- Работа по вариантам.
Данный вариант предполагает фокусировку на обучении нескольких видов моделей обучения с учителем. В зависимости от набора данных, может предполагаться задача классификации и регрессии. Необходимо после минимальной подготовки датасета к обучению обучить несколько моделей и сравнить их эффективность.
Данный вариант предполагает фокусировку на исследовании данных и визуализации. При решении этого варианта следует провести как можно более подробный описательный анализ данных с использованием максимального спектра средств визуализации. При этом следует делать значимые выводы об обнаруженных в данных закономерностях.
Данный вариант предполагает фокусировку на процессе улучшения эффективности модели обучения с учителем. Студенту следует подготовить датасет к обучению, обучить одну из моделей с учителем со значениями гиперпараметров по умолчанию, получить значение эффективности. После этого вручную или автоматически подобрать значения гиперпараметров таким образом, чтобы получить максимальный прирост эффективности.
Данный вариант предполагает фокусировку на улучшении модели путем ввода новых признаков в модель. Следует подготовить модель к обучению, обучить модель и зафиксировать начальный уровень эффективности. Затем следует исследовать влияние исключения существующих и введения новых признаков в модель на эффективность. Как вариант можно рассматривать введение полиномиальных признаков. Следует стремиться к максимальному увеличению эффективности модели.
Данный вариант предполагает фокусировку на использовании методов обучения без учителя для ускорения или повышения эффективности обучения с учителем. Следует подготовить модель к обучению, обучить модель и зафиксировать начальный уровень эффективности. Затем следует попробовать применить понижение размерности, обнаружение аномалий или кластеризацию (в любой комбинации) для трансформации исходного датасета. В конце работы следует сделать значимый вывод об изменении скорости и эффективности обучения с учителем.
- python >= 3.8
- requirements.txt
- файл Машинка теория.docx (тут задания 1-10)
- файл Методические указания к экзамену.docx (файл по ссылке "Программа экзамена" с сайта Коротеева)