Theory information and compression of data.
Entropia i entropia warunkowa języków naturalnych – zadania programistyczne
Korzystając z pliku norm_wiki_en.txt wyznacz entropię znaków w języku angielskim.
Wyznacz entropię słów w języku angielskim.
Wyznacz entropię warunkową pierwszego rzędu dla liter w języku angielskim (na podstawie prawdopodobieństwa występowania po sobie znaków).
Napisz kod, który wyznacza entropię warunkową znaków i słów dowolnego rzędu.
Wylicz entropie znaków i słów oraz ich entropie warunkowe kolejnych rzędów dla próbki języka angielskiego (plik norm_wiki_en.txt). Dokonaj również analizy dla próbek innych języków:
- łacińskiego (plik norm_wiki_la.txt),
- esperanto (plik norm_wiki_eo.txt),
- estońskiego (plik norm_wiki_et.txt),
- somalijskiego (plik norm_wiki_so.txt),
- haitańskiego (plik norm_wiki_ht.txt),
- navaho (plik norm_wiki_nv.txt).
Korzystając z zaobserwowanych wartości entropii warunkowej odpowiedz na pytanie, czy następujące pliki zawierają język naturalny:
- sample0.txt,
- sample1.txt,
- sample2.txt,
- sample3.txt,
- sample4.txt,
- sample5.txt.