Skip to content
Vitor Cardoso Xoteslem edited this page Apr 10, 2018 · 2 revisions

TF-IDF

O TF-IDF (Term Frequency-Inverse Document Frequency) é uma medida estatística que tem como objetivo mensurar a relevância de uma palavra em um determinado conjunto de textos escritos em um idioma especifico.

TF: Term Frequency

O Term-Frequency ou Frequência do Termo, mede a frequência de um termo em um texto. É a razão entre, o número de vezes que um termo aparece em um texto, e o numero total de termos neste mesmo texto.
TF(t) = (Número de aparições de t em um texto) / (Número total de termos no texto).

IDF: Inverse Document Frequency

O Inverse Document Frequency ou Inverso da Frequência nos Documentos mede o quão importante o termo é para o texto. Cumpre o papel de reduzir a relevância de palavras comuns como "um", "uma", "os", e aumentar a relevância de palavras mais raras. É o logaritmo da razão entre o número total de documentos e o numero de documentos nos quais um termo aparece.
IDF(t) = log(Número total de documentos) / (Número de documentos nos quais t aparece).

TF-IDF

O TF é utilizado em conjunto com o IDF para aumentar a relevância de uma palavra à medida que a ocorrência dela aumenta num texto. Mas ao mesmo tempo equilibrar a relevância de palavras muito frequentes que também não são raras no conjunto total de textos.
TF-IDF(t) = TF(t) * IDF(t)

Exemplo

Suponha que a palavra Aprendizado apareça 5 vezes em um texto de 100 palavras.
TF = 5/100 = 0.05
Suponha também que num conjunto de 1000000 de textos observados a palavra Aprendizado apareça em 1000 desses textos.
IDF = log(1000000/1000) = 3
Logo,
TF-IDF = 0.05 * 3 = 0.15

Referência:

http://www.tfidf.com/

Clone this wiki locally