MÓDULO 3 - MODERNO

Evolución hacia conceptos modernos

Tras la máquina transparente, sofisticamos sin volver a la niebla. Los minilaboratorios visuales conectan la Pequeña Máquina del Lenguaje con conceptos modernos: embeddings (mapa de significado), atención (pesos de enfoque), búsqueda de documentos (RAG) y sistemas híbridos.

Principio del módulo

Modernizar no es mistificar. Es cambiar piezas sencillas por otras más flexibles, manteniendo el mapa mental.

Mapa de incrustación

Seleccione una palabra y vea cuáles son las más cercanas. Mapa 2D simplificado: las incrustaciones reales tienen cientos de dimensiones.

Palabra:

Selección

café

grupo didáctico: bebidas

Vecinos más próximos

chádist. 7.2

leitedist. 11.2

xícaradist. 12.6

pãodist. 22.5

bolodist. 28.8

Simulador de atención

No computa la atención real del Transformador. Ilustra la idea: las fichas reciben diferentes pesos según cómo ayuden a interpretar el foco.

Ejemplo:

Enfoque

ela

AnaemprestouocasacoparaJúliaporqueelaestavacomfrio

Ana28%

emprestou18%

o4%

casaco62%

para20%

Júlia90%

porque16%

ela100%

estava42%

com12%

frio55%

Mini-RAG: buscar antes de responder

Edite los documentos, formule una pregunta y vea qué pasajes se recuperan. Puntuación por solapamiento de palabras: sencilla pero instructiva.

Base documental

Pregunta

Respuesta admitida

El pasaje más relevante parece ser: "Documento 3: Atenção ajuda o modelo a pesar quais partes do contexto são mais relevantes.".

Documento 375% match

Documento 3: Atenção ajuda o modelo a pesar quais partes do contexto são mais relevantes.

atençãoajudamodelo

Documento 225% match

Documento 2: Embeddings representam palavras e textos como posições em um espaço numérico.

como

Documento 10% match

Documento 1: A Small Language Machine usa um corpus pequeno para aprender padrões de continuação.

Documento 40% match

Documento 4: RAG combina busca em documentos com geração de linguagem.

Documento 50% match

Documento 5: GPUs aceleram muitas operações matemáticas paralelas usadas no treinamento de redes neurais.

¿Qué hace bien cada pieza?

El objetivo no es elegir una técnica ganadora, sino comprender cómo se complementan entre sí.

N-gramas

Fuerza Muito transparentes e fáceis de explicar.

Límite Dependem de repetição exata e generalizam pouco.

Utilice Ensino, protótipos, demonstrações de previsão.

Embeddings

Fuerza Capturam proximidade de significado.

Límite São aproximações e podem carregar vieses dos dados.

Utilice Busca semântica, recomendação, comparação de textos.

Atenção

Fuerza Ajuda a conectar partes relevantes do contexto.

Límite Não é compreensão humana nem garante verdade.

Utilice Transformers, LLMs, tradução, resumo, geração.

RAG

Fuerza Apoia respostas em documentos externos.

Límite Depende da qualidade da busca e das fontes.

Utilice Perguntas sobre bases internas, pesquisa, suporte.

Lección completa30 minPonte conceitual

3.1

Del recuento a los modelos neuronales

Qué cambia cuando dejamos atrás la tabla de n-gramas

Objetivo de la lección

Comprender la transición entre una máquina de contar transparente y los modelos neuronales que aprenden representaciones más flexibles.

Lo que nuestra máquina de n-gramas hizo bien

La máquina interactiva del módulo 2 observaba secuencias y contaba continuaciones. Si después de "me gusta" aparecía la palabra "café", lo almacenaba en la tabla.

Este enfoque es excelente para el aprendizaje porque es transparente. Podemos abrir la tabla, ver los recuentos y explicar cada elección.

El límite de la repetición exacta

El problema es que la máquina de n-gramas depende en gran medida de secuencias ya vistas. Si el corpus nunca ha tenido "Me encanta el café", puede que no sepa que es similar a "Me gusta el café".

Los modelos neuronales entran a tratar mejor la similitud, el contexto y la generalización. En lugar de depender únicamente de la repetición exacta, aprenden representaciones internas.

Las representaciones son el salto

La palabra "café" deja de ser sólo una etiqueta o una entrada en una tabla. Empieza a estar representada por números que capturan relaciones con otras palabras.

Este salto abre el camino a las incrustaciones, la atención y los modelos modernos. La máquina empieza a trabajar con vecindarios de significado, no solo con recuentos locales.

[práctica]

La brecha en el recuento

Piense en un corpus que tenga "me gusta el café" pero nunca haya tenido "me encanta el café". ¿Por qué la máquina de n-gramas no puede utilizar la similitud entre "me gusta" y "me encanta"? ¿Qué necesitaría?

Ver respuesta esperada

Para la tabla, "me gusta" y "me encanta" son símbolos diferentes sin relación - sólo conoce secuencias exactas. Necesitaría una representación que acercara palabras de significado similar. Eso es exactamente lo que ofrecen las incrustaciones.

✓ Lo que se lleva

Los modelos modernos no abandonan la estadística, sino que la sofistican. Pasamos de recuentos explícitos a representaciones aprendidas que permiten una mejor generalización.

Glosario vivo

Términos que encontraremos en este módulo.

Representación

Forma numérica o estructural que utiliza la máquina para trabajar con una idea, palabra o documento.

Inserción

Representación numérica que sitúa palabras o textos en un espacio de significado.

Similitud

Medida de proximidad entre dos representaciones.

Atención

Mecanismo que asigna distintos pesos a partes del contexto.

Atención peso

Valor que indica la importancia que recibe una ficha en un paso determinado.

RAG

Retrieval-Augmented Generation: generación asistida por la recuperación de documentos.

Recuperación

Proceso de búsqueda de documentos o pasajes relacionados con una pregunta.

Contexto exterior

Información aportada desde fuera del modelo para apoyar una respuesta.

Sistema híbrido

Un sistema que combina distintas técnicas, como LLM, búsqueda, reglas, grafos y bases de datos.

Evolución hacia conceptos modernos

Principio del módulo

Modernizar no es mistificar. Es cambiar piezas sencillas por otras más flexibles, manteniendo el mapa mental.