Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Investigadores del MIT proponen Modelos de Lenguaje Recursivo
Vas a escuchar más sobre esto en 2026.
¿Por qué importa?
¿Y si los LLMs pudieran procesar entradas 100 veces más tiempo que su ventana de contexto?
La longitud del contexto es una restricción estricta.
Puedes ampliarlo con cambios arquitectónicos, pero siempre hay un límite. La mayoría de los enfoques intentan meter más en la ventana o comprimir lo que no encaja.
Esta nueva investigación adopta un enfoque diferente. En lugar de luchar contra el límite de contexto, trabaja alrededor de él de forma programática.
Los Modelos de Lenguaje Recursivo (RLM) tratan los prompts largos como un entorno externo. El modelo puede examinar el prompt, descomponerlo en secciones y llamarse recursivamente a sí mismo en fragmentos. Es una escala de inferencia-tiempo aplicada a la longitud del contexto.
En lugar de forzar todo a pasar por atención de una sola vez, deja que el modelo particione y procese estratégicamente la información a través de múltiples llamadas recursivas.
Los resultados son impresionantes. Los RLM gestionan con éxito entradas de hasta dos órdenes de magnitud más allá de las ventanas contextuales del modelo. Un modelo con un contexto de 8K puede procesar efectivamente tokens de 800K.
Pero esto es lo sorprendente: incluso para prompts más cortos que encajan en contexto, los RLM superan de forma espectacular a los LLMs base y a los andamios comunes de contexto largo en cuatro tareas diferentes.
Esto sugiere algo interesante.
Quizá prestar atención secuencial a toda la entrada no siempre sea la mejor estrategia, incluso cuando técnicamente es posible. La descomposición programática y el procesamiento recursivo pueden ser fundamentalmente mejores para ciertas tareas.
El enfoque logra un coste por consulta comparable o más barato en comparación con métodos alternativos de contexto largo.
Las limitaciones de longitud del contexto limitan lo que los agentes pueden hacer. Procesar bases de código enteras, documentos largos o historiales de conversación extensos requiere soluciones alternativas. Los RLM ofrecen una estrategia de inferencia general que convierte los límites del contexto en una restricción blanda en lugar de una estricta.

Populares
Ranking
Favoritas
