مجموعه سند ها از پکیج nltk گرفته شده و می توانید آن را تغییر دهید فقط کافی است یک سری فایل تکست داشته باشید که بخوایین روش سرچ بزنین
قسمت عمده بخش گرافیکی را chatgpt زده و بنده دخیل نبودم
بر اساس روش tf-idf توضیح داده شده در کتاب بازیابی اطلاعات آقای منینگ پیاده سازی شده
دقت کنید که کلمه ای مثل marriage در رمان های جین استین خیلی تکرار شده و موضوع رمان هایش هم همین است
اگر یک چمله به ساختار انگلیسی مدرن
(منظور از انگلیسی مدرن زبانی است که در دوره الیزابت صحبت می کردند و انجیل ورژن کینگ جیمز که در اون دوران نوشته شده به زبان انگلیسی مدرن است)
بنویسیم انجیل و هملت و دیگر اثار شکسپیر را در رتبه بالاتری قرار می دهد و اگر کلمه شیطان را سرچ کنید بیشتر تر انجیل و بهشت گمشده تکرار شده