Skip to content

Практическая часть Машинное Обучение (ML) лето 2022

Notifications You must be signed in to change notification settings

StudOborona/MLSummer2022

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

56 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

MLSummer2022

Практическая часть Машинное Обучение (ML) лето 2022

Задания

  1. Очистка данных и обучение моделей. Датасет: https://www.kaggle.com/akshayksingh/kidney-disease-dataset

  2. Очистка данных и обучение моделей. Датасет: https://www.kaggle.com/elikplim/forest-fires-data-set

  3. Описательный анализ и визуализация данных. Датасет: https://www.kaggle.com/shebrahimi/financial-distress

  4. Описательный анализ и визуализация данных. Датасет: https://www.kaggle.com/akshayksingh/kidney-disease-dataset

  5. Построение модели и оптимизация гиперпараметров. Датасет: https://www.kaggle.com/kaushiksuresh147/customer-segmentation

  6. Построение модели и оптимизация гиперпараметров. Датасет: https://www.kaggle.com/elikplim/forest-fires-data-set

  7. Выбор признаков. Датасет: https://www.kaggle.com/amir75/caesarean-section-classification

  8. Выбор признаков. Датасет: https://www.kaggle.com/amir75/caesarean-section-classification

9. Исследование влияния обучения без учителя на эффективность обучения. Датасет: https://www.kaggle.com/veer06b/marrket-mix-dataset

10. Исследование влияния обучения без учителя на эффективность обучения. Датасет: https://www.kaggle.com/sachinsharma1123/performance-prediction

Для исследования влияния обучения без учителя на эффективность обучения (задания 9-10) используйте пример от @immortalBan

Работа с репозиторием

  1. Создать ветку от master для выполнения своего задания. Наименование ветки: <author>__task_<n>, например, kovalev__task_01
  2. Выполнить задание в своей ветке
  3. Создать PR в master

Структура репозитория:

├───01  # директория содержащая ваше решение
│   ├───README.md  # содержит номер и условие задачи с ссылкой на датасет
│   ├───main.ipynb  # jupyter-notebook с решением задания
│   └───...  # другие файлы, которые используются в вашем решении
├───02
│   └───...
├───...
├───data  # все датасеты из заданий
│   ├───kidney_disease.csv  # использование: '../data/kidney_disease.csv'
│   └───...
├───more
│    ├──143 #решение варианта 143
│    └───...
├───.gitignore  # добавьте сюда имена файлов, которыми не хотите замусорить репозиторий
├───README.md  # вы здесь
└───requirements.txt  # файл с версиями используемых библиотек

Выполнение заданий

Общие этапы

  1. Загрузить датасет в Python.
  2. Описать набор данных и решаемую задачу.
  3. Выделить целевую переменную и факторные переменные.
  4. Удалить ненужные данные, проанализировать отсутствующие значения.
  5. Прокомментировать количественные параметры датасета.
  6. Разбить выборку на обучающую и тестовую.
  7. Работа по вариантам.

Варианты этапов

Вариант 1. Очистка данных и обучение моделей.

Данный вариант предполагает фокусировку на обучении нескольких видов моделей обучения с учителем. В зависимости от набора данных, может предполагаться задача классификации и регрессии. Необходимо после минимальной подготовки датасета к обучению обучить несколько моделей и сравнить их эффективность.

Вариант 2. Описательный анализ и визуализация данных.

Данный вариант предполагает фокусировку на исследовании данных и визуализации. При решении этого варианта следует провести как можно более подробный описательный анализ данных с использованием максимального спектра средств визуализации. При этом следует делать значимые выводы об обнаруженных в данных закономерностях.

Вариант 3. Построение модели и оптимизация гиперпараметров.

Данный вариант предполагает фокусировку на процессе улучшения эффективности модели обучения с учителем. Студенту следует подготовить датасет к обучению, обучить одну из моделей с учителем со значениями гиперпараметров по умолчанию, получить значение эффективности. После этого вручную или автоматически подобрать значения гиперпараметров таким образом, чтобы получить максимальный прирост эффективности.

Вариант 4. Выбор признаков.

Данный вариант предполагает фокусировку на улучшении модели путем ввода новых признаков в модель. Следует подготовить модель к обучению, обучить модель и зафиксировать начальный уровень эффективности. Затем следует исследовать влияние исключения существующих и введения новых признаков в модель на эффективность. Как вариант можно рассматривать введение полиномиальных признаков. Следует стремиться к максимальному увеличению эффективности модели.

Вариант 5. Исследование влияния обучения без учителя на эффективность обучения.

Данный вариант предполагает фокусировку на использовании методов обучения без учителя для ускорения или повышения эффективности обучения с учителем. Следует подготовить модель к обучению, обучить модель и зафиксировать начальный уровень эффективности. Затем следует попробовать применить понижение размерности, обнаружение аномалий или кластеризацию (в любой комбинации) для трансформации исходного датасета. В конце работы следует сделать значимый вывод об изменении скорости и эффективности обучения с учителем.

Требования

  • python >= 3.8
  • requirements.txt

Дополнительно

About

Практическая часть Машинное Обучение (ML) лето 2022

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published