Il s'agit de la machine des leçons 7 et 10 - en direct. Vous alimentez le corpus et vous observez le travail de chaque pièce : la tokenisation, le vocabulaire, la table de continuation et la génération token par token, avec les probabilités affichées. Pas de magie, pas de réseau neuronal : du comptage pur que vous pouvez voir à travers.
Le petit monde que connaît la machine. Une phrase par ligne.
Chaque phrase est décomposée en morceaux (mots et ponctuation).
eugostodecaféeugostodecháeugostodecafécomleiteelagostadecaféelagostadepãoocaféestáquenteocháestáfrioeubebocafédemanhãelabebecháànoitecafécombinacompãochácombinacomboloamáquinaaprendepadrõesDes jetons uniques, chacun avec un numéro (ID) et le nombre de fois qu'il est apparu.
Nombre de mots précédents pris en compte par la machine pour prédire le mot suivant.
La mémoire de la machine : après chaque contexte de 2 mots, ce qui s'est passé ensuite - et combien de fois.
Il examine le contexte, vérifie le tableau, choisit le jeton suivant et recommence.
C'est cela. En modifiant le corpus, la taille du contexte et la méthode de sélection, vous voyez d'où vient chaque mot et pourquoi la même machine peut sembler prévisible ou créative. Les modèles géants suivent le même cycle, avec des enchâssements et de l'attention au lieu du comptage brut.
← Retour à la leçon 10