Skip to content

Commit

Permalink
Preprocess Data
Browse files Browse the repository at this point in the history
  • Loading branch information
fawern committed Aug 27, 2024
1 parent d5f5f7b commit 85a005e
Show file tree
Hide file tree
Showing 5 changed files with 562 additions and 0 deletions.
Binary file removed Model/__pycache__/preprocess_text.cpython-310.pyc
Binary file not shown.
Binary file removed Model/__pycache__/preprocessor.cpython-310.pyc
Binary file not shown.
67 changes: 67 additions & 0 deletions Preprocess-Data/category_reducer.py
Original file line number Diff line number Diff line change
@@ -0,0 +1,67 @@
def categorize_news_type(news_type, types_list, return_type):
if news_type in types_list:
return return_type
else:
return news_type

def category_reducer(df):

##---------Yerel---------
with open("../Preprocess-Data/iller.txt", 'r', encoding='utf-8') as f:
cities = f.readlines()

cities = [city.strip() for city in cities] + [
'Kayseri Bölge', 'Karadeniz - Doğu Anadolu', 'Egeli Sabah', 'Marmara', 'Ankara Başkent', 'Akdeniz',
'Güney'
]

df['News_type'] = df['News_type'].apply(categorize_news_type, types_list=cities, return_type='Yerel')

##---------Futbol---------
sports_teams = [
"Beşiktaş", "Futbol", "Fenerbahçe", "Galatasaray", "Trabzonspor", 'Türkiye Kupası', 'Euro 2020',
'TFF 1. Lig', 'Spor Magazin', 'Transfer Haberleri', 'Uluslararası Futbol Ekonomi Forumu'
]

df['News_type'] = df['News_type'].apply(categorize_news_type, types_list=sports_teams, return_type='Futbol')

##---------Dünya---------
gloabl_list = ['Amerika', "Avrupa"]

df['News_type'] = df['News_type'].apply(categorize_news_type, types_list=gloabl_list, return_type='Dünya')

##---------Yemek Tarifleri---------
recipes_categories = [
"Kahvaltılık Tarifler", "Çorbalar", "Sebze Yemekleri", "Vegan Tarifler", "Vejetaryen Tarifler",
"Makarna Ve Pilav Tarifleri", "Yemek Tarifleri", "Kekler", "Salata ve Mezeler",
"Kurabiye Tarifleri", "Yemek", "Tatlılar", "Et Yemekleri", "Sağlıklı Tarifler",
"Hamur İşi", 'Mutfak Sırları', 'İçecek Tarifleri', 'Tatlı Tarifleri', 'Börekler-Çörekler ve Poğaçalar',
'Soslar ve İçecekler', 'Diğer Tarifler', 'Çorba Tarifleri', 'Pilav Tarifleri', 'Hamurişi Tarifleri',
'Salata & Meze & Kanepe', 'Makarna Tarifleri', 'Bakliyat Yemekleri', 'Dolma-Sarma Tarifleri',
'Sandviç Tarifleri', 'Aperatifler', 'Yumurta Yemekleri', 'Dünya Kupası', 'Diyet Yemekleri'
]

df['News_type'] = df['News_type'].apply(categorize_news_type, types_list=recipes_categories, return_type='Yemek Tarifleri')

##---------Sağlık---------
health_topics = ["Sağlık", "Çocuk Sağlığı", "Ruh Sağlığı", "Kadın Sağlığı", "Erkek Sağlığı"]

df['News_type'] = df['News_type'].apply(categorize_news_type, types_list=health_topics, return_type='Sağlık')

##---------Kişisel Bakım---------
personal_care_categories = [
"Makyaj", "Saç Bakımı", "Cilt Bakımı", "Güzellik"
]

df['News_type'] = df['News_type'].apply(categorize_news_type, types_list=personal_care_categories, return_type="Kişisel Bakım")

##---------Finans---------
finans_categories = [
"Finans Kripto Para Haberleri", "Ekonomi", "Finans Şirket Haberleri", "Finans Altın Haberleri",
"Finans Emtia-Döviz Haberleri", "Finans Borsa Haberleri", "Finans Gündem Haberleri", "Finans Ekonomi Haberleri",
]

df['News_type'] = df['News_type'].apply(categorize_news_type, types_list=finans_categories, return_type="Finans")


return df
83 changes: 83 additions & 0 deletions Preprocess-Data/iller.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,83 @@
Adana
Adıyaman
Afyonkarahisar
Ağrı
Amasya
Ankara
Antalya
Artvin
Aydın
Balıkesir
Bilecik
Bingöl
Bitlis
Bolu
Burdur
Bursa
Çanakkale
Çankırı
Çorum
Denizli
Diyarbakır
Edirne
Elazığ
Erzincan
Erzurum
Eskişehir
Gaziantep
Giresun
Gümüşhane
Hakkari
Hatay
Isparta
Mersin
İstanbul
İzmir
Kars
Kastamonu
Kayseri
Kırklareli
Kırşehir
Kocaeli
Konya
Kütahya
Malatya
Manisa
Kahramanmaraş
Mardin
Muğla
Muş
Nevşehir
Niğde
Ordu
Rize
Sakarya
Samsun
Siirt
Sinop
Sivas
Tekirdağ
Tokat
Trabzon
Tunceli
Şanlıurfa
Uşak
Van
Yozgat
Zonguldak
Aksaray
Bayburt
Karaman
Kırıkkale
Batman
Şırnak
Bartın
Ardahan
Iğdır
Yalova
Karabük
Kilis
Osmaniye
Düzce
Eskişehir Bölge
Konya Bölge
412 changes: 412 additions & 0 deletions Preprocess-Data/preprocessing.ipynb

Large diffs are not rendered by default.

0 comments on commit 85a005e

Please sign in to comment.