Esta é a máquina das Aulas 7 e 10 — viva. Você alimenta o corpus e acompanha cada peça funcionando: tokenização, vocabulário, a tabela de continuações e a geração token por token, com as probabilidades à mostra. Sem mágica, sem rede neural: pura contagem que você consegue enxergar por dentro.
O pequeno mundo que a máquina conhece. Uma frase por linha.
Cada frase quebrada em pedaços (palavras e pontuação).
eugostodecaféeugostodecháeugostodecafécomleiteelagostadecaféelagostadepãoocaféestáquenteocháestáfrioeubebocafédemanhãelabebecháànoitecafécombinacompãochácombinacomboloamáquinaaprendepadrõesTokens únicos, cada um com um número (ID) e quantas vezes apareceu.
Quantas palavras anteriores a máquina olha para prever a próxima.
A memória da máquina: depois de cada contexto de 2 palavras, o que apareceu — e quantas vezes.
Ela olha o contexto, consulta a tabela, escolhe o próximo token e repete.
É só isto. Trocando o corpus, o tamanho do contexto e a forma de escolher, você vê de onde vem cada palavra — e por que a mesma máquina pode soar previsível ou criativa. Modelos gigantes fazem o mesmo ciclo, com embeddings e atenção no lugar da contagem crua.
← Reler a Aula 10