A questão mais difícil para o aprendizado contínuo é identificar os benchmarks corretos e as experiências de produto para destilação de contexto
Existe uma lista bem finita de métodos que você deveria considerar, que terão concessões em diferentes regimes. Só que atualmente não é muito óbvio como avaliá-los uns contra os outros, ou para qual problema específico você inicialmente usaria uma solução
Um extremo: aprendizado "contínuo" em blocos discretos de 6 meses, para um conhecimento completo e intuitivo do mundo Será que realmente esperamos que haja algo melhor do que continuar com toda a internet pré/meio do treinamento + refazer o normal pós-treino?
Tipo, claro, talvez você possa fazer uma junção de pesos do antigo checkpoint pós-treinado com um novo checkpoint CPT para economizar, talvez você possa simplesmente CPT certas camadas/especialistas, e poderíamos experimentar caramente qual versão disso é mais prática, mas o espaço de design é conhecido
Por "destilação de contexto" quero dizer que você vai querer algum pipeline automático que receba despejos de informações (transcrições de chat, texto web, históricos de repositórios) e os organize em algo mais útil para o meio ou pós-treinamento do que a forma bruta (por exemplo, perguntas e respostas básicas)
79