-
Сбор датасета
Готовых датасетов по квизам с вариантами ответов найдено не было. Поэтому пришлось парсить одну из онлайн-баз. В результате был собран датасет размером ~2.5k вопросов. В случае необходимости можно его расширить, распарсив другие категории на сайте.
-
Поисковая система
Google Custom Search Engine
иYandex XML
не предоставляют возможности бесплатного их использования. А при прямом парсинге очень быстро появляетсяHTTP_429
с капчей. Поэтому был найден сторонний сервис, возвращающий результаты поиска в форматеjson
. На один аккаунт можно получить ~600 бесплатных запросов (первые 100 сниппетов на один запрос). Аккаунт регистрируется по почте, можно воспользоваться любым temp-mail сервисом. Полученный API-ключ прописываем в переменную окруженияAPI_KEY
. -
Модель для поиска ответов
-
Методы поиска
В начале вопрос разбивается на ключевые слова (удаляются стоп-слова при помощи
NLTK
и проводятся еще некоторые манипуляции). Затем запускается два метода получения ответа. Один ищет точные совпадения вариантов ответа среди выдачи поисковой системы, другой - совпадения по ключевым словами вариантов ответа. -
Сравнение результатов по поиску совпадений
Сравнение производилось на первых 500 вопросах из датасета (~20% датасета)
-
Полное содержание страниц по ссылкам из поисковой выдаче
- Первый метод - 53% точных ответов
- Второй метод - 55% точных ответов
-
Сниппеты с кратким содержанием
- Первый метод - 75% точных ответов
- Второй метод - 77% точных ответов
-
-
-
Notifications
You must be signed in to change notification settings - Fork 0
mb1te/VKR-Bachelor-Project
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published