-
Notifications
You must be signed in to change notification settings - Fork 2
/
HOWTO.txt
39 lines (29 loc) · 2.75 KB
/
HOWTO.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
Лема - толькі лема парадыгмы, не варыянта !
Шукаем "несупярэчлівыя формы":
Калі ў тэксце ёсць націск - у базе ён мусіць быць у тым самым месцы.
Калі ў базе з вялікай літары(ці вялікімі літарамі) - у тэксце мусіць быць з вялікай літары(ці вялікімі літарамі)
Калі ў тэксце слова з вялікай літары - мусім па базе шукаць з вялікай і з малой
Калі ў тэксце слова з малой літары - бярэм у базе толькі з малой літары
Нармалізацыя слоў:
- Апострафы прыводзім да лацінкавых.
- Націскі прыводзяцца да '+'
- Г выбухное - у базе няма, у тэксце прыводзім да звычайнага 'г'
- Ў у першай пазіцыі: калі ў базе 'ў', у тэксце мусіць быць 'ў', калі ў базе 'у' - у тэксце можа быць 'у' 'ў'
Магчымыя параўнанні з інтэрнэтаўскімі крыніцамі: 'у' замест 'ў', 'щ' замест 'ў', 'и' замест 'і', 'е' замест 'ё'.
Нармалізацыя і паразнанні ўжываюцца (усім пошукам папярэднічае мінімальная нармалізацыя: правільныя націскі, апострафы, г выбухное):
- StaticGrammarFiller - масавае запаўненне звестак па слову з тэкста
- пошук у корпусе - пошук лемы
- пошук у корпусе - пошук слова па корпусе, без граматычнай базы
- пошук па граматычнай базе
Пошук па граматычнай базе:
StaticGrammarFiller - масавае запаўненне звестак па слову з тэкста
GrammarFinder - пошук па хэшу
EditorGrammarFiller - пошук у рэдактары з улікам новаствораных парадыгмаў
Форма слова што запісваецца ў індэксе корпусу:
- малымі літарамі
- без націска
- нармалізаваныя апострафы
- першае 'ў' заменена на 'у'
Пошук па слове: таксама як з пошукам па базе("ў", вялікія літары), дзе слова што ўвёў карыстальнік разглядаецца як слова ў базе
Jetty init:
java -jar $JETTY_HOME/start.jar --add-module=server,http,deploy,annotations