Китайские исследователи из Университета науки и технологий Хуачжун (HUST) и лаборатории VIVO AI Lab представили модель Moebius, которая способна восстанавливать и дорисовывать удаленные или отсутствующие фрагменты изображений с качеством, сопоставимым с системами на порядок крупнее. При этом новая модель весит всего 220 млн параметров — в 45 раз меньше, чем у типичных конкурентов.
Авторы проекта утверждают, что Moebius не только превосходит крупные системы по скорости инференса (26 мс на шаг, ускорение в 15 раз), но и в некоторых случаях — например, при работе со сложными текстурами или правдоподобным восстановлением лиц — демонстрирует лучшие результаты, чем модели с 10 млрд параметров, такие как FLUX.1-Fill-Dev. Тестирование проводилось на шести стандартных наборах данных, где Moebius показала стабильно высокие результаты.
Архитектура модели основана на двух ключевых инновациях. Первый блок — Local-λ Mix Interaction — оптимизирует механизм внимания, сводя пространственный и семантический контекст к фиксированным матрицам. Это позволяет модели эффективнее обрабатывать локальные детали без потери глобальной согласованности. Второй компонент — дистилляция знаний от более крупной модели PixelHacker, выполненная в латентном пространстве. Такой подход позволил перенести экспертные знания без необходимости масштабировать архитектуру.
Проект уже привлек внимание сообщества: технический отчет занял первое место в ежедневном рейтинге статей на Hugging Face, а сам проект подан на конференцию ECCV 2026. Авторы опубликовали открытый код и предобученные веса, включая базовый чекпоинт и три специализированные версии: дообученную на Places2 (общие сцены), CelebA-HQ (портреты знаменитостей) и FFHQ (реалистичные лица с Flickr). Лицензия на код — Apache 2.0, на модели — MIT, что делает проект доступным для коммерческого и исследовательского использования.
Интересно, что Moebius демонстрирует не только высокую эффективность, но и гибкость. Например, версия для CelebA-HQ может восстанавливать детали лица с учетом реалистичных текстур, а Places2 — обрабатывать сложные архитектурные или природные сцены. Это делает модель перспективной не только для академических исследований, но и для практических применений в мультимедийных сервисах, редактировании фото и видео, а также в системах компьютерного зрения.
Эксперты отмечают, что подобные разработки могут изменить подход к созданию моделей для генеративных задач. Если ранее увеличение качества требовало масштабирования параметров, то Moebius показывает, что оптимизация архитектуры и знаний может дать сопоставимые или даже лучшие результаты при минимальных вычислительных затратах. Это особенно актуально для устройств с ограниченными ресурсами, где скорость и эффективность имеют критическое значение.
Проект уже вызвал живой интерес в сообществе: на GitHub и Hugging Face активно обсуждаются возможности дообучения и адаптации модели под специфические задачи. Авторы также планируют расширять поддержку для новых датасетов, что может еще больше увеличить практическую ценность Moebius в ближайшие месяцы.


