Репозиторий для учебных и pet проектов data science.
Задачи
Построить модель, прогнозирующую концентрацию золота после проведения процесса очистки руды.
Сферы деятельности
Промышленность
Библиотеки:
pandas, seaborn, numpy, sklearn, matplotlib, scipy
Ключевые навыки
Исследовательский анализ данных, заполнение пропусков во временных рядах с помощью аппроксимации B-сплайнами, кастомные метрики, исключение мультиколлинеарных признаков по VIF критерию, оптимизация линейной регрессии по кол-ву признаков.
Описание
Необходимо построить модель машинного обучения для компании, разрабатывающей решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды на основе данных с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.
Задачи
Построить модель, прогнозирующую температуру готовой стали.
Сферы деятельности
Промышленность
Библиотеки:
pandas, seaborn, numpy, sklearn, matplotlib, scipy, lightgbm, xgboost, catboost
Ключевые навыки
Предобработка данных, исследовательский анализ данных, формирование таблицы признаков на основе теоретических представлений, исключение мультиколлинеарных признаков по VIF критерию, оптимизация гиперпараметров моделей, оптимизация моделей по кол-ву признаков, линейная регрессия, бустинги.
Описание
Для оптимизации расходов металлургического комбината необходимо снизить энергопотребление этапа обработки стали. Для такого снижения есть технологические предпоссылки. При производстве стали с нужными характеристиками в исходную расплавленную руду, состав которой может зависеть от партии, в несколько итераций добавляются легирующие добавки, удаляются вредные примеси, проводится химический анализ состава, между итерациями расплав дополнительно подогревается, и не редко подогрев оказывается избыточным. Таким образом, энергопотребление можно снизить за счёт модели, способной прогнозировать финальную температуру расплава.
Задачи
Построить модель, прогнозирующую количество заказов такси.
Сферы деятельности
Бизнес, интернет-сервисы
Библиотеки:
pandas, seaborn, numpy, sklearn, matplotlib, statsmodels, lightgbm, xgboost, catboost
Ключевые навыки
Формирование таблицы потенциально влияющих признаков на основе предварительного анализа данных, кроссвалидация с учетом специфики временных рядов, оптимизация гиперпараметров моделей, оптимизация моделей по кол-ву признаков, экспоненциальные модели, модель SARIMAX, линейная регрессия, бустинги.
Описание
Компания такси собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Строится модель для такого предсказания.
Задачи
- Выяснить является ли эффект лечения статистически значимым.
- Выявить факторы, влияющие на выживаемость.
- Оценить масштаб влияния факторов на выживаемость с помощью модели Кокса.
Сферы деятельности
Медицина, промышленность
Библиотеки:
pandas, seaborn, numpy, sklearn, matplotlib, scipy, lifelines
Ключевые навыки
Предварительный анализ цензурированных данных средствами описательной статистики анализа выживаемости, формулировка гипотез, тестирование гипотез, выявление значимых влияющих на целевой параметр факторов, оценка масштаба их влияния с помощью непараметрической модели Кокса.
Описание
В данном проекте проведём исследовательский анализ выживаемости пациентов по широко известному датасету влияния лечения на пациентов с острым лейкозом (Freireich et al. Blood 21(1963): 699-716). При анализе будем применять инструменты описательной статистики, тестировать гипотезы, исследовать влияние факторов на выживаемость с помощью полупараметрической модели Кокса.
Задачи
- Разработать рекомендательную систему для маркетплейса с 3 млн. объектов с метрикой accuracy@5 не менее 70%.
- Упаковать рекомендательную систему в приложение.
Сферы деятельности
Маркетинг, поисковые системы, онлайн-кинотеатры, бизнес
Библиотеки:
pandas, seaborn, numpy, sklearn, matplotlib, faiss, catboost, time
Описание
База данных товаров маркетплейса (https://disk.yandex.ru/d/BBEphK0EHSJ5Jw) содержит почти 3 млн. позиций и 72 столбца - признака в численном виде. Часть данных размечена наиболее близким объектом к данному - рекомендацией. Необходимо разработать рекомендательную систему.