Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Podrías hacer que la inferencia de la IA sea 3 veces más rápida sin ningún entrenamiento extra.
¡Investigadores de SJTU y Huawei presentan LoPA precisamente por eso!
Su nuevo método de "Decodificación Paralela de Anticipación" es un truco plug-and-play. Predice inteligentemente el mejor orden para generar varios tokens a la vez, en lugar de uno a uno, desbloqueando así una computación paralela masiva.
Supercarga el modelo D2F-Dream para generar 10+ tokens por paso, logrando más de 1070 tokens/seg, superando significativamente a otros sistemas de inferencia de alto nivel en benchmarks de codificación (MBPP) y matemáticas (GSM8K).
LoPA: Escalabilidad de inferencia en dLLM mediante decodificación paralela anticipada
Papel:
Código:
Blog:
Nuestro informe:
📬 #PapersAccepted por Jiqizhixin

Populares
Ranking
Favoritas
