class MyStringUtils: public static List LevDist1 (String word) функция возвращает список слов, до которых расстояние Левенштейна = 1 public static List SwapChar (String word) функция возвращает список слов, которые можно получить поменяв две соседние буквы местами
class NotFoundWordsTest: notFoundWords() файл in - путь к файлу, полученному в результату обрадотки дампа вики с помощью Wiki2LinesTest файлы out: nfw – файл, где в каждой строке: <слово, которое встретилось в Википедии, но не нашлось такого в словаре> nfw_n – файл, где в каждой строке: <слово, которое встретилось в Википедии, но не нашлось такого в словаре> \t <число, в скольких статьях встретилось данное слово> nfw_istitle – файл, где в каждой строке: <слово, которое встретилось в заголовке статьи Википедии, но не нашлось такого в словаре> nfw_istitle_n – файл, где в каждой строке: <слово, которое встретилось в заголовке статьи Википедии, но не нашлось такого в словаре> \t <число, в скольких статьях встретилось данное слово> isTitleOften() файл in - nfw_istitle_n, полученный в результате выполнения предыдущей функции файлы out - из файла nfw_istitle_n оставляем только те слова что встречались более чем в 1(3) статьях и длиной больше 4: nfw_istitle_nMore1_Lmore4 nfw_istitle_nMore3_Lmore4
class Dist1Find1Test: static файл in_istitle (nfw_istitle) - результат работы notFoundWords() класса NotFoundWordsTest dist1Find1() файл in (nfw) - результат работы notFoundWords() класса NotFoundWordsTest (nfw) файл out (nfw_dist1+find1) - файл, где в каждой строчке: <слово, которое не нашлось в словаре, но есть ровно одно слово из словаря на расстоянии Левенштейна = 1> \t <то самое единственное слово-исправление> noTitle() файл in (nfw_dist1+find1) - результат работы предыдущей функции файл out (nfw_dist1+find1+nottitle) - из списка слов-ошибок убираются те, что были встречены хоть раз в заголовке статьи lessEqualMore() - попытка классифицировать слова-ошибки по типу ошибки (одна недостающая, неправильная или лишняя буква) файл in (nfw_dist1+find1+nottitle) - результат работы предыдущей функции файл out (nfw_dist1+find1+nottitle+lem) - для пар слов из файла in добавляет через \t одну букву: если в слове не хватало одной буквы (less) -> l если в слове была одна неправильная буква (equal) -> e если в слове была одна лишняя буква (more) -> m например: "самостаятельно самостоятельно e", "совеременников современников m", "шодевр шедевр e"
class FindSwapCharTest: static файл in (nfw) - результат работы notFoundWords() класса NotFoundWordsTest static файл out (nfw_find1swapchar+lmore5) - список слов, которые не нашлись в словаре, но нашлось ровно одно слово, в котором две соседние буквы поменяны местами <слово-ошибка> \t <слово-исправление> например: "потдверждено подтверждено"