
Сверхкомпактные AI-модели становятся всё ближе к массовому пользователю, и последним подтверждением этому стала работа стартапа PrismML. Команда специализируется на экстремальном сжатии нейросетей без потери функциональности, и их новая разработка — 1-битная версия FLUX.2 Klein 4B — демонстрирует, насколько далеко продвинулась эта технология.
Изначально FLUX.2 Klein 4B была представлена как мощная модель для генерации изображений, но её вес и требования к ресурсам ограничивали доступность. PrismML удалось сократить размер Diffusion Transformer до 930 МБ в 1-битном формате и до 1.2 ГБ в ternary-версии. Однако текстовый энкодер, отвечающий за обработку промптов, не поддался столь же сильной оптимизации, поэтому полный пакет модели всё же занимает 3.5 ГБ. Несмотря на это, результат оказался впечатляющим: модель сохраняет приемлемое качество генерации при минимальных аппаратных требованиях.
Одним из ключевых преимуществ новой версии является возможность запуска инференса прямо в браузере или через мобильное приложение Bonsai Studio. Это означает, что пользователи смартфонов, включая модели среднего и даже высокого класса, могут генерировать изображения без необходимости в мощных серверах или десктопных системах. Например, на iPhone с высокой производительностью генерация изображения размером 512×512 занимает около 9,4 секунды при 4 шагах инференса — результат, который можно считать удивительно быстрым для мобильной платформы.
Для сравнения, на десктопных системах с графическими ускорителями генерация такого же изображения занимает доли секунды, но мобильная версия демонстрирует удивительную эффективность при ограниченных ресурсах. Это делает её доступной для широкого круга пользователей, которые ранее могли позволить себе только облачные сервисы или специализированное оборудование.
Веса модели уже доступны на платформе Hugging Face, что упрощает интеграцию и эксперименты с ней для разработчиков и энтузиастов. Такая оптимизация открывает новые горизонты для мобильных приложений, где AI-генерация изображений может стать стандартной функцией без необходимости в сложной инфраструктуре.
Важно отметить, что сверхсжатые модели, такие как эта, не только снижают требования к аппаратным ресурсам, но и уменьшают задержки при передаче данных, что особенно актуально для мобильных устройств с ограниченной пропускной способностью. Это делает FLUX.2 Klein 4B в версии PrismML не только доступной, но и практичной для повседневного использования.


