Apuntes de la facultad

Search

Term frequency x inverse document frequency (TF-IDF)

❯

❯

❯

Term frequency x inverse document frequency (TF-IDF)

Definición

Es similar a term frequency, donde dado un conjunto de tokens se toman los primeros k tokens más comunes. Después se genera una Matriz, de n por k, donde n son la cantidad de frase/páginas. El valor en cada posición de la matriz representa la cantidad de veces que aparece dicho token en esa frase o página multiplicado por la Inverse document frequency de ese token.

Dado un query del usuario, vamos a hacer un vector para esa query con los mismos tokens anterior. Finalmente haremos la Similitud coseno entre la query y los datos que obtuvimos anteriormente.

Esto nos da el orden de nuestra información, donde el que tenga mayor similitud va primero y se ordena de forma descendente.

Backlinks

N-gramas
Normalización
Organización de datos (7506)

Links

GitHub

Created with Quartz v4.2.3 © 2024