Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Sorunlu Kelimeler. #7

Open
setanarut opened this issue Jul 20, 2020 · 4 comments
Open

Sorunlu Kelimeler. #7

setanarut opened this issue Jul 20, 2020 · 4 comments

Comments

@setanarut
Copy link

setanarut commented Jul 20, 2020

Sorunlu kelimelerin bazılarını derledim, turkish_pattern_table değişkeninde tanımlanırsa düzeltilebilir. olası kullanımları öğretmek gerekiyor.
Sorunlu kelimeler

  • Acar - Açar
  • Asık - Aşık
  • Oldu - Öldü
  • Sık - Sik - Şık
  • Tas - Taş
  • Su - Şu
  • Surat - Sürat
  • Koy - Köy
  • Turunçgiller

Cümle içinde kullanalım

Ascii Deasciifier hatalı çeviri
COK SIKSINIZ ÇOK SIKSINIZ
ASIK VEYSEL ASIK SURATLI MIYDI? AŞIK VEYSEL AŞIK SÜRATLİ MİYDİ?
AL KIRDIN SIKTIN BIRAKTIN! AL KIRDİN SIKTIN BIRAKTIN!
YEMEGI TASA KOY GETIR YEMEĞİ TAŞA KÖY GETİR
TURUNCGILLER TURUNÇĞİLLER
COK ACAR BIRI ÇOK AÇAR BİRİ
@emres
Copy link
Owner

emres commented Oct 6, 2020

Merhaba,

Detaylı analiz ve uygun örnekler için çok teşekkürler @hazarek!

turkish_pattern_table değişkeni doğrudan ve elle oluşturulmuş bir veri seti olmadığı için, ona doğrudan müdahale uygun olmayabilir.

Deniz Yüret hocanın burada da belirttiği gibi, "The Greedy Prepend Algorithm for Decision List Induction" yöntemi ile bir derlemden (corpus), otomatik olarak oluşturulmuş durumda. Maalesef derlemden otomatik olarak o karar listesini oluşturma işlevselliği bu projenin parçası değil.

Deniz hoca ya da siz, turkish_pattern_table değişkeni içinde tutulan veriyi bir derlemden otomatik olarak oluşturma programını kolayca kullanılabilir halde sunabilirseniz, o zaman belki daha büyük ve güncel bir Türkçe derlem üzerinden, daha doğru sonuçlar verecek bir liste oluşturmak mümkün olabilir.

Not: Bu arada, size yazdığım bu yorumu İngilizce klavye ile yazdım, Türkçe harflere çevirme işlemini de bu sistemle yaptım (corpus sözcüğü dışında düzgün çalıştı sistem). Bu vesile ile @denizyuret hocaya tekrar çok teşekkürler!

@setanarut
Copy link
Author

Rica ederim @emres bey, aylar önce ASCII bir veritabanını düzeltmem gerekiyordu, hatalı çevirdiğini farkettiğimde vazgeçtim. https://github.com/aysnrgenc/TurkishDeasciifier bu depoda sinir ağları ile çalışan halini bulmuştum çok daha az hata yapıyor, yukarıdaki verdiğim örnekler kolaylıkla öğretilebilir.

@emres
Copy link
Owner

emres commented Oct 6, 2020

@hazarek, sayenizde @aysnrgenc tarafından geliştiren sistemden haberdar oldum, hemen README.md dosyasına da ekleyeyim aysnrgenc/TurkishDeasciifier'ı.

İlgili makalede sinir ağları ile çalışan sistem performansı %86 olarak belirtilmiş. (TABLE IV DIACRITIC RESOLUTION RESULT COMPARISON). Daha büyük bir derlem ve GPU kullanan bir makinada biraz daha uzun süre eğitilirse, ortaya %98 ya da daha yüksek oranda doğru sonuç veren bir model çıkarsa çok faydalı olabilir (teorik olarak bu işi %100 yapmak mümkün değil gibi görünüyor bana şimdilik, Türkçenin yapısından ötürü). Bunu biraz kurcalayayım, belki birileri destek verebilir işin bu tarafı için.

@setanarut
Copy link
Author

kelimeler düzelene kadar açık kalması daha iyi.

@setanarut setanarut reopened this Feb 1, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants