Skip to content

mb1te/VKR-Bachelor-Project

Repository files navigation

Проект по ВКР

  1. Сбор датасета

    Готовых датасетов по квизам с вариантами ответов найдено не было. Поэтому пришлось парсить одну из онлайн-баз. В результате был собран датасет размером ~2.5k вопросов. В случае необходимости можно его расширить, распарсив другие категории на сайте.

  2. Поисковая система

    Google Custom Search Engine и Yandex XML не предоставляют возможности бесплатного их использования. А при прямом парсинге очень быстро появляется HTTP_429 с капчей. Поэтому был найден сторонний сервис, возвращающий результаты поиска в формате json. На один аккаунт можно получить ~600 бесплатных запросов (первые 100 сниппетов на один запрос). Аккаунт регистрируется по почте, можно воспользоваться любым temp-mail сервисом. Полученный API-ключ прописываем в переменную окружения API_KEY.

  3. Модель для поиска ответов

    1. Методы поиска

      В начале вопрос разбивается на ключевые слова (удаляются стоп-слова при помощи NLTK и проводятся еще некоторые манипуляции). Затем запускается два метода получения ответа. Один ищет точные совпадения вариантов ответа среди выдачи поисковой системы, другой - совпадения по ключевым словами вариантов ответа.

    2. Сравнение результатов по поиску совпадений

      Сравнение производилось на первых 500 вопросах из датасета (~20% датасета)

      1. Полное содержание страниц по ссылкам из поисковой выдаче

        1. Первый метод - 53% точных ответов
        2. Второй метод - 55% точных ответов
      2. Сниппеты с кратким содержанием

        1. Первый метод - 75% точных ответов
        2. Второй метод - 77% точных ответов

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published