Del recuento a los modelos neuronales
Qué cambia cuando dejamos atrás la tabla de n-gramas
Comprender la transición entre una máquina de contar transparente y los modelos neuronales que aprenden representaciones más flexibles.
Lo que nuestra máquina de n-gramas hizo bien
La máquina interactiva del módulo 2 observaba secuencias y contaba continuaciones. Si después de "me gusta" aparecía la palabra "café", lo almacenaba en la tabla.
Este enfoque es excelente para el aprendizaje porque es transparente. Podemos abrir la tabla, ver los recuentos y explicar cada elección.
El límite de la repetición exacta
El problema es que la máquina de n-gramas depende en gran medida de secuencias ya vistas. Si el corpus nunca ha tenido "Me encanta el café", puede que no sepa que es similar a "Me gusta el café".
Los modelos neuronales entran a tratar mejor la similitud, el contexto y la generalización. En lugar de depender únicamente de la repetición exacta, aprenden representaciones internas.
Las representaciones son el salto
La palabra "café" deja de ser sólo una etiqueta o una entrada en una tabla. Empieza a estar representada por números que capturan relaciones con otras palabras.
Este salto abre el camino a las incrustaciones, la atención y los modelos modernos. La máquina empieza a trabajar con vecindarios de significado, no solo con recuentos locales.
La brecha en el recuento
Piense en un corpus que tenga "me gusta el café" pero nunca haya tenido "me encanta el café". ¿Por qué la máquina de n-gramas no puede utilizar la similitud entre "me gusta" y "me encanta"? ¿Qué necesitaría?
Ver respuesta esperada
Para la tabla, "me gusta" y "me encanta" son símbolos diferentes sin relación - sólo conoce secuencias exactas. Necesitaría una representación que acercara palabras de significado similar. Eso es exactamente lo que ofrecen las incrustaciones.
Los modelos modernos no abandonan la estadística, sino que la sofistican. Pasamos de recuentos explícitos a representaciones aprendidas que permiten una mejor generalización.