Nous Research представила метод ускоренного предобучения LLM без потери качества


Nous Research представила метод ускоренного предобучения LLM без потери качества

Исследовательская группа Nous Research опубликовала описание инновационного метода предобучения больших языковых моделей, который обещает кардинально изменить подход к обучению LLM. Token Superposition Training (TST) ускоряет процесс в 2–3 раза по реальному времени, сохраняя неизменными архитектуру модели, оптимизатор и набор данных. При этом ключевым отличием от традиционных подходов становится не изменение логики предсказания, а переработка входных данных.

Суть метода заключается в том, что на начальных этапах обучения модель не обрабатывает отдельные токены, а сразу батчи из нескольких последовательных токенов. Их векторные представления усредняются на входе, а на выходе применяется модифицированная функция потерь. Важно: никакого семантического или статистического отбора нет — деление происходит исключительно по позиции в тексте. Внутри батча порядок токенов игнорируется, и модель учится не предсказывать конкретную последовательность, а лишь распознавать набор токенов, которые могут встретиться в данном контексте.

Размер батча — один из двух ключевых параметров метода. Оптимальное значение зависит от масштаба модели: для модели с 270 млн параметров он варьировался от 3 до 8 токенов, а для 10-миллиардной MoE достигал 16. После начальной фазы обучения модель переключается на стандартный режим предсказания следующего токена.

Тестирование метода на моделях разного размера — от 270 млн до 10 млрд параметров — подтвердило его эффективность. В самом крупном эксперименте модель с TST достигла более низкого значения лосса, чем аналогичная по вычислениям базовая модель, примерно за 40% времени. При этом она показала лучшие результаты на ключевых бенчмарках: HellaSwag, ARC и MMLU.

Однако у метода есть существенное ограничение: TST потребляет обучающие данные быстрее традиционных подходов, так как перерабатывает больше текста за тот же объём вычислений. Если объём данных ограничен, метод может стать контрпродуктивным.

Авторы подчёркивают, что готовая модель на инференсе не отличается от обученной стандартным способом. Это означает, что TST может стать универсальным решением для ускорения разработки LLM без компромиссов в качестве, но с оговоркой на достаточный объём обучающих данных.

Метод может заинтересовать как исследователей, так и практиков, работающих с большими языковыми моделями. Он открывает новые возможности для оптимизации процессов обучения без изменения архитектуры или данных, что особенно актуально в условиях растущих требований к вычислительным ресурсам.

Автор

  • фото сергей сергеев

    Сергей Сергеев — практикующий трейдер и автор FinTerminal. С 2013 года работает с Forex, криптовалютами и акциями, анализируя рыночные риски, волатильность, исполнение сделок и поведение цены в новостные периоды. В материалах сочетает собственный торговый опыт, статистику рынков и проверку условий брокеров для частных трейдеров и инвесторов. При подготовке публикаций опирается на данные регуляторов, рыночную статистику, биржевые котировки и публичные условия брокеров, отдельно отмечая риски, ограничения и спорные моменты, которые важно проверить перед принятием решения.

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Прокрутить вверх