Китайские исследователи представили Moebius: модель для инпейнта изображений, которая обгоняет гигантов по качеству и скорости


Китайские исследователи из Университета науки и технологий Хуачжун (HUST) и лаборатории VIVO AI Lab представили модель Moebius, которая способна восстанавливать и дорисовывать удаленные или отсутствующие фрагменты изображений с качеством, сопоставимым с системами на порядок крупнее. При этом новая модель весит всего 220 млн параметров — в 45 раз меньше, чем у типичных конкурентов.

Авторы проекта утверждают, что Moebius не только превосходит крупные системы по скорости инференса (26 мс на шаг, ускорение в 15 раз), но и в некоторых случаях — например, при работе со сложными текстурами или правдоподобным восстановлением лиц — демонстрирует лучшие результаты, чем модели с 10 млрд параметров, такие как FLUX.1-Fill-Dev. Тестирование проводилось на шести стандартных наборах данных, где Moebius показала стабильно высокие результаты.

Архитектура модели основана на двух ключевых инновациях. Первый блок — Local-λ Mix Interaction — оптимизирует механизм внимания, сводя пространственный и семантический контекст к фиксированным матрицам. Это позволяет модели эффективнее обрабатывать локальные детали без потери глобальной согласованности. Второй компонент — дистилляция знаний от более крупной модели PixelHacker, выполненная в латентном пространстве. Такой подход позволил перенести экспертные знания без необходимости масштабировать архитектуру.

Проект уже привлек внимание сообщества: технический отчет занял первое место в ежедневном рейтинге статей на Hugging Face, а сам проект подан на конференцию ECCV 2026. Авторы опубликовали открытый код и предобученные веса, включая базовый чекпоинт и три специализированные версии: дообученную на Places2 (общие сцены), CelebA-HQ (портреты знаменитостей) и FFHQ (реалистичные лица с Flickr). Лицензия на код — Apache 2.0, на модели — MIT, что делает проект доступным для коммерческого и исследовательского использования.

Интересно, что Moebius демонстрирует не только высокую эффективность, но и гибкость. Например, версия для CelebA-HQ может восстанавливать детали лица с учетом реалистичных текстур, а Places2 — обрабатывать сложные архитектурные или природные сцены. Это делает модель перспективной не только для академических исследований, но и для практических применений в мультимедийных сервисах, редактировании фото и видео, а также в системах компьютерного зрения.

Эксперты отмечают, что подобные разработки могут изменить подход к созданию моделей для генеративных задач. Если ранее увеличение качества требовало масштабирования параметров, то Moebius показывает, что оптимизация архитектуры и знаний может дать сопоставимые или даже лучшие результаты при минимальных вычислительных затратах. Это особенно актуально для устройств с ограниченными ресурсами, где скорость и эффективность имеют критическое значение.

Проект уже вызвал живой интерес в сообществе: на GitHub и Hugging Face активно обсуждаются возможности дообучения и адаптации модели под специфические задачи. Авторы также планируют расширять поддержку для новых датасетов, что может еще больше увеличить практическую ценность Moebius в ближайшие месяцы.

Автор

  • фото сергей сергеев

    Сергей Сергеев — практикующий трейдер и автор FinTerminal. С 2013 года работает с Forex, криптовалютами и акциями, анализируя рыночные риски, волатильность, исполнение сделок и поведение цены в новостные периоды. В материалах сочетает собственный торговый опыт, статистику рынков и проверку условий брокеров для частных трейдеров и инвесторов. При подготовке публикаций опирается на данные регуляторов, рыночную статистику, биржевые котировки и публичные условия брокеров, отдельно отмечая риски, ограничения и спорные моменты, которые важно проверить перед принятием решения.

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Прокрутить вверх