-
Notifications
You must be signed in to change notification settings - Fork 27
Tietokoneavusteinen oikoluku
NVI edited this page Apr 20, 2013
·
1 revision
(Aapo Rantalainen:)
(Ubuntu specifiset ohjelmien asennusohjeet).
###HAE aputiedostot, jos eivät vielä virallisessa versiossa mukana
wget https://raw.github.com/aapo/oppikirjamaraton-maa1/a79f557de0d2fbf0f12daeeaa68fbeb3236a7e0e/sisalto/falset_pois.sh
wget https://raw.github.com/aapo/oppikirjamaraton-maa1/a79f557de0d2fbf0f12daeeaa68fbeb3236a7e0e/sisalto/false_positive_words.txt
##MUUTA pdf tekstimuotoiseksi (helpompi kuin copy-paste käsin)
#sudo apt-get install poppler-utils
pdftotext kirja.pdf kirja.txt
HUOM: varsinkin monipalstaiset (eli marginaalimerkinnät ja kaavat) saattavat aiheuttaa ylimääräisiä kirjaimia sanoihin.
###Muodosta LISTA virheellisistä sanoista (ilman kontekstia)
#sudo apt-get install libvoikko-dev voikko-fi
voikkogc --tokenize < kirja.txt | grep --color=no W: | sed 's/W://g' | sed 's/"//g' | sed 's/ //g' > sanalista.txt
voikkospell < sanalista.txt | grep --color=no W: | sed 's/W: //g' | uniq > virheelliset_sanat.txt
###KARSI listasta tunnetut väärät hälytykset (numerosarjat+nimet+englanti+ruotsi+jne) pois. sh falset_pois.sh
###Virheelliset sanat löytyvät tiedostosta: virheelliset_sanat.txt cat virheelliset_sanat.txt
###virheellisen sanan voi sitten ETSIÄ lähdekoodista vaikkapa näin (esimerkiksi 'rational')
find 0* -wholename -prune -o -type f -print0 | xargs -0 grep -niI --color=yes rational
##Tai käy INTERAKTIIVISESTI tekstimuotoinen läpi.
# Tämä voi muuttua puuduttavaksi koska numerosarjoja on jonkin verran (esim K2006)
# Karsiminen helpottaa.
#sudo apt-get install aspell aspell-fi
aspell check kirja.txt