Skip to content

Commit

Permalink
fix hyphen norm
Browse files Browse the repository at this point in the history
  • Loading branch information
bnika committed Feb 6, 2024
1 parent 0401924 commit 434767b
Show file tree
Hide file tree
Showing 3 changed files with 5 additions and 6 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -103,6 +103,7 @@ private NumberHelper() {}
//TODO: not sure about this, without context difficult to say if it should be "sil" or not
// DIGIT_NUMBERS.put("\\-", " <sil>");
//DIGIT_NUMBERS.put("\\-", " #");
DIGIT_NUMBERS.put("\\-", " - ");
DIGIT_NUMBERS.put("\\+", " plús");
DIGIT_NUMBERS.put("\\.", " punktur");
DIGIT_NUMBERS.put(":", " :");
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -172,7 +172,7 @@ else if (linksPattern != null) {
else if (token.length() > 1 && token.charAt(0) == token.charAt(1))
token = insertSpaces(token);
else if ((token.length() > 1 && NormalizationDictionaries.NOT_LETTER.matcher(token).matches())
|| !PUNCTUATION_TO_KEEP.matcher(token).matches())
|| (token.length() == 1 && !PUNCTUATION_TO_KEEP.matcher(token).matches()))
token = normalizeDigits(token);
}

Expand Down Expand Up @@ -602,8 +602,6 @@ private String fillDict(String token, String tag, final List<CategoryTuple> tupl
final Pattern numberPattern = tuple.getNumberPattern();
final Pattern rule = tuple.getRule();
if (numberPattern.matcher(token).matches() && rule.matcher(tag).matches()) {
if (tuple.getCategory().equals("thousands"))
System.out.println(numberPattern);
tokenMap.put(tuple.getCategory(), tuple.getExpansion());
}
}
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -32,12 +32,12 @@ public class NormalizationManagerTest {

@Test
public void processTest() {
String input = "99.200.000";
String input = "síma 421-6368";
NormalizationManager manager = new NormalizationManager(context, pronDict);
String processed = manager.process(input);
System.out.println(processed);

assertEquals("níutíu og níu milljónir og tvö hundruð þúsund .",
assertEquals("síma fjórir tveir einn - sex þrír sex átta .",
processed);
}

Expand Down Expand Up @@ -301,7 +301,7 @@ private Map<String, String> getTestSentences() {
testSentences.put("er þetta í 23. skiptið sem mótið er haldið .", "er þetta í tuttugasta og þriðja skiptið sem mótið er haldið .".toLowerCase());
testSentences.put("Skráning er hafin á http://keflavik.is/fimleikar/ og ef eitthvað er óljóst er hægt að hafa samband í síma 421-6368 eða á [email protected]",
"Skráning er hafin á keflavik punktur is skástrik ".toLowerCase() +
"fimleikar og ef eitthvað er óljóst er hægt að hafa samband í síma fjórir tveir einn- sex þrír sex átta eða á fimleikar hjá keflavik punktur is .".toLowerCase());
"fimleikar og ef eitthvað er óljóst er hægt að hafa samband í síma fjórir tveir einn - sex þrír sex átta eða á fimleikar hjá keflavik punktur is .".toLowerCase());
testSentences.put("Austlæg átt, 5-13 m/s síðdegis.", "Austlæg átt , fimm til þrettán metrar á sekúndu síðdegis .".toLowerCase());
testSentences.put("hlutfallið á Vestfjörðum þar sem 14,1% íbúa eru innflytjendur",
"hlutfallið á Vestfjörðum þar sem fjórtán komma eitt prósent íbúa eru innflytjendur .".toLowerCase());
Expand Down

0 comments on commit 434767b

Please sign in to comment.