- Склонируйте этот репозиторий
- Установите зависимости
- Сделайте задание
- Заполните форму
В этой домашке мы будет классифицировать твиты на 3 тональности.
Вы будете использовать предобученные эмбеддинги слов, так что для начала обязательно нужно посмотреть туториал по их использованию.
Вам предстоит реализовать такую модель:
Что она из себя представляет:
- Мы подаем в нее индексы слов
- Переводим индексы слов в эмбеддинги
- Усредняем эмбеддинги
- Пропускаем усредненные эмбеддинги через
Multilayer Perceptron
В этой домашке вам предстоит:
- Перевести тексты в матрицы с индексами токенов
- Реализовать модель
- Обучить ее
- Понять хорошо ли вы это сделали
Это очень важная модель, потому что она очень простая и показывает достаточно высокие метрики. В дальнейшем на работе советую использовать такую модель как бейзлайн. И в качестве эмбеддингов слов взять эмбеддинги от берта/роберты/тд.
Используйте слои: nn.Linear
, nn.BatchNorm
, nn.Dropout
и тд.
Необходимые сторонние библиотеки
pip install -r requirements.txt
Будет проверяться корректность логики обучения, будут даваться комментарии что нужно исправить, если домашка будет сдана вовремя. Максимальный балл: 10.
26/10/2021
Далее максимальный балл за работу: 7
- Не отправляйте ссылку на
colab
- Прежде чем отправить задание на проверку, очистите свой код от неиспользоваемого кода и неважных комментариев