Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Die schwierigste offene Frage für kontinuierliches Lernen besteht darin, die richtigen Benchmarks und Produkterfahrungen für die Kontextdestillation zu finden.
Es gibt eine ziemlich begrenzte Liste von Methoden, die Sie in Betracht ziehen möchten, die in verschiedenen Regimen Kompromisse haben werden. Es ist derzeit einfach nicht sehr offensichtlich, wie man sie gegeneinander bewertet oder für welches spezifische Problem Sie zunächst eine Lösung einsetzen würden.
eine Extreme: "kontinuierliches" Lernen in 6-monatlichen diskreten Blöcken, für vollständiges intuitives Weltwissen
erwarten wir wirklich, dass es etwas Besseres gibt als fortlaufendes Pre-/Mid-Training des gesamten Internets + das normale Post-Training erneut durchzuführen?
Vielleicht kannst du das Gewicht der alten, nachtrainierten Checkpoints mit einem neuen CPT-Checkpoint zusammenführen, um einige Einsparungen zu erzielen. Vielleicht kannst du einfach bestimmte Schichten/Experten CPTen, und wir könnten kostspielig experimentieren, welche Version davon am praktischsten ist, aber der Designraum ist bekannt.
Mit "Kontext-Destillation" meine ich, dass Sie eine automatische Pipeline benötigen, die Informationsdumps (Chat-Protokolle, Webtexte, Repository-Historien) aufnimmt und sie in etwas Nützlicheres für das Mid-/Post-Training umwandelt als die Rohform (z. B. grundlegende Fragen und Antworten).
102
Top
Ranking
Favoriten
