самый сложный открытый вопрос для непрерывного обучения заключается в том, как определить правильные эталоны и продуктовые впечатления для дистилляции контекста
существует довольно ограниченный список методов, которые вы хотели бы рассмотреть, и у них будут свои недостатки в разных режимах. В настоящее время не очень очевидно, как оценивать их друг относительно друга, или для какой конкретной проблемы вы изначально развернули бы решение.
один экстремум: "непрерывное" обучение на 6-месячных дискретных блоках для полного интуитивного знания о мире действительно ли мы ожидаем, что будет что-то лучшее, чем продолжительное предобучение/среднее обучение на всем интернете + повторное нормальное постобучение?
возможно, вы можете выполнить объединение весов старой контрольной точки после обучения с новой контрольной точкой CPT, чтобы получить некоторые преимущества, возможно, вы можете просто использовать CPT для определенных слоев/экспертов, и мы могли бы дорогостоящим образом экспериментировать с тем, какая версия этого наиболее практична, но пространство дизайна известно
под "дистилляцией контекста" я имею в виду, что вам понадобится автоматизированный процесс, который принимает информационные свалки (транскрипты чатов, текст из интернета, истории репозиториев) и преобразует их во что-то более полезное для промежуточного/последующего обучения, чем сырая форма (например, базовые вопросы и ответы)
103