Яндекс обновил Alice AI ART: теперь модель генерирует кириллический текст в 3 раза точнее


Яндекс обновил Alice AI ART: теперь модель генерирует кириллический текст в 3 раза точнее

Яндекс представил обновлённую версию своей визуально-генеративной модели Alice AI ART, которая теперь демонстрирует значительный прогресс в генерации кириллического текста на изображениях. Разработчики отмечают, что точность воспроизведения русского текста выросла в три раза по сравнению с предыдущей версией. Это особенно актуально, учитывая, что диффузионные модели традиционно слабо справляются с текстом: буквы для них не отличаются от других текстур, а кириллица усугубляет проблему из-за дефицита качественных обучающих данных.

Основная сложность заключалась в дисбалансе датасетов: открытые коллекции содержат минимальное количество примеров с русским текстом, а доступные образцы часто имеют низкое качество. Прямое использование таких данных ухудшало эстетику и общую точность генерации. Чтобы решить эту проблему, команда создала собственный датасет из 30 миллионов пар «изображение-текст» для претрейна и около 100 тысяч примеров для файнтюнинга, отобранных по критериям качества и визуальной привлекательности. Особое внимание уделялось разнообразию символов и токенов, чтобы модель не ограничивалась генерацией только самых частотных букв.

Архитектурные изменения также сыграли ключевую роль. Вместо традиционного UNet модель теперь использует Diffusion Transformer, который лучше обрабатывает пространственные связи между удалёнными участками изображения — это критично для длинных надписей. Кроме того, текстовой энкодер был заменён на LLM, что позволило модели точнее понимать семантику и контекст запросов. Обучение теперь ведётся напрямую на русскоязычных промптах, без перевода с английского, что повысило релевантность генераций.

Внутренние тесты показали впечатляющие результаты: фразы из 7–9 слов теперь корректно генерируются в большинстве случаев, тогда как предыдущая версия практически не справлялась с такой задачей. Общее качество генераций выросло на треть — доля изображений без визуальных искажений увеличилась. Особенно заметен прогресс в локальной айдентике: 85% генераций теперь соответствуют ожидаемому результату, что сопоставимо с топовыми индустриальными решениями. По доле успешных генераций кириллического текста Alice AI ART обогнала других российских моделей.

Эксперты Яндекса также поделились рекомендациями по промптингу для достижения максимального качества. Например, текст в кавычках воспроизводится точнее, сложные слова лучше писать заглавными буквами, а длинные фразы следует разбивать на части с явным указанием их расположения на изображении. Эти приёмы помогают модели лучше интерпретировать запрос и минимизировать ошибки.

Обновлённая Alice AI ART может стать важным инструментом для дизайнеров, маркетологов и разработчиков, которым требуется генерация высококачественных изображений с русским текстом. Прогресс в этой области сужает разрыв между российскими и зарубежными решениями, делая технологию более доступной для локальных задач.

Автор

  • фото сергей сергеев

    Сергей Сергеев — практикующий трейдер и автор FinTerminal. С 2013 года работает с Forex, криптовалютами и акциями, анализируя рыночные риски, волатильность, исполнение сделок и поведение цены в новостные периоды. В материалах сочетает собственный торговый опыт, статистику рынков и проверку условий брокеров для частных трейдеров и инвесторов. При подготовке публикаций опирается на данные регуляторов, рыночную статистику, биржевые котировки и публичные условия брокеров, отдельно отмечая риски, ограничения и спорные моменты, которые важно проверить перед принятием решения.

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Прокрутить вверх