
Команда бенчмарка ProgramBench сообщила о прорывном результате: модель GPT 5.5 в режимах high и xhigh впервые полностью решила одно из заданий — задачу cmatrix. До этого ни одна модель из публичного рейтинга не доводила подобные задачи до конца. ProgramBench представляет собой набор реальных задач программирования, где ИИ-агент должен с нуля переписать утилиту с открытым исходным кодом и пройти скрытые поведенческие тесты.
По данным лидерборда, GPT 5.5 (xhigh) занимает первое место с 0,5% полностью решённых задач и 13,5% почти решённых (проходящих свыше 95% поведенческих тестов). Аналогичные показатели у GPT 5.5 (high): 0,5% полностью решённых и 5% почти решённых. Для сравнения, Claude Opus 4.7 (xhigh) демонстрирует 0% полностью решённых и 4,5% почти решённых задач, а обычная версия Opus 4.7 — 0% и 3% соответственно. Устаревшая модель Opus 4.6 показывает ещё более скромные результаты: 0% и 2,5%. Совокупно число почти решённых задач у GPT 5.5 достигло 26, что является рекордом рейтинга.
Примечательно, что в режиме medium, который OpenAI выставляет по умолчанию, GPT 5.5 лишь незначительно опережает Claude Sonnet 4.6. Однако при включении расширенного рассуждения её результат заметно улучшается. Это подтверждает, что дополнительные вычислительные ресурсы и более глубокий анализ задачи критически важны для достижения высоких показателей.
Разница в стоимости запуска также впечатляет. Запуск GPT 5.5 (high) обошёлся в $3,17 и потребовал 34 обращения к API, тогда как GPT 5.5 (xhigh) стоил $4,84 при 40 обращениях. Для сравнения, аналогичный запуск Claude Opus 4.7 (xhigh) оценивается в $10,74 при 178 обращениях, но при этом решение содержало 19 ошибок в поведенческих тестах. Авторы бенчмарка связывают провалы с двумя багами в коде Claude: чувствительностью парсера цветов к регистру и неверным кодом возврата.
Интересно, что две версии GPT 5.5 выбрали принципиально разные подходы к решению одной и той же задачи. Модель в режиме high использовала язык C с ANSI escape-последовательностями, тогда как xhigh предпочла Python. Команда ProgramBench отметила, что Claude Opus 4.7 (xhigh) применила библиотеку ncurses, что было охарактеризовано как креативное системное решение, однако это не дало преимущества в итоговом результате.


