Esta es la máquina de las lecciones 7 y 10, en directo. Usted alimenta el corpus y observa cómo funciona cada pieza: tokenización, vocabulario, tabla de continuación y generación de token por token, con las probabilidades en pantalla. Sin magia ni redes neuronales: puro recuento que se puede ver.
El pequeño mundo que conoce la máquina. Una frase por línea.
Cada frase dividida en trozos (palabras y signos de puntuación).
eugostodecaféeugostodecháeugostodecafécomleiteelagostadecaféelagostadepãoocaféestáquenteocháestáfrioeubebocafédemanhãelabebecháànoitecafécombinacompãochácombinacomboloamáquinaaprendepadrõesFichas únicas, cada una con un número (ID) y cuántas veces ha aparecido.
En cuántas palabras anteriores se fija la máquina para predecir la siguiente.
La memoria de la máquina: después de cada contexto de 2 palabras, lo que vino después, y cuántas veces.
Mira el contexto, comprueba la tabla, elige el siguiente token y repite.
Eso es. Cambiando el corpus, el tamaño del contexto y el método de selección, se ve de dónde viene cada palabra, y por qué la misma máquina puede sonar predecible o creativa. Los modelos gigantes siguen el mismo ciclo, con incrustaciones y atención en lugar de recuento en bruto.
← Volver a la lección 10