Apuntes de la facultad

Search

Bag of words

❯

❯

❯

Definición

Es similar a TF donde dado un conjunto de tokens se toman los primeros k tokens más comunes. Después se genera una matriz booleana, de n por k, donde n son la cantidad de frase/páginas. El booleano representa si aparece o no dicho token en esa frase o página.

Dado un query del usuario, vamos a hacer un vector booleano para esa query con los mismos tokens anterior. Finalmente haremos la similitud coseno entre la query y los datos que obtuvimos anteriormente.

Esto nos da el orden de nuestra información, donde el que tenga mayor similitud va primero y se ordena de forma descendente.

Hiper-parámetros

Tokenización
Stop-word
Steamming
Lematización

Definición
Hiper-parámetros

Backlinks

Normalización
Term Frequency
Organización de datos (7506)

Links

GitHub

Created with Quartz v4.2.3 © 2024