Definición
Es similar a TF donde dado un conjunto de tokens se toman los primeros k
tokens más comunes. Después se genera una matriz booleana, de n
por k
, donde n
son la cantidad de frase/páginas. El booleano representa si aparece o no dicho token en esa frase o página.
Dado un query del usuario, vamos a hacer un vector booleano para esa query con los mismos tokens anterior. Finalmente haremos la similitud coseno entre la query y los datos que obtuvimos anteriormente.
Esto nos da el orden de nuestra información, donde el que tenga mayor similitud va primero y se ordena de forma descendente.