GPT 5.5 впервые в истории прошла задание из бенчмарка ProgramBench

Команда бенчмарка ProgramBench сообщила о прорывном результате: модель GPT 5.5 в режимах high и xhigh впервые полностью решила одно из заданий — задачу cmatrix. До этого ни одна модель из публичного рейтинга не доводила подобные задачи до конца. ProgramBench представляет собой набор реальных задач программирования, где ИИ-агент должен с нуля переписать утилиту с открытым исходным кодом и пройти скрытые поведенческие тесты.

По данным лидерборда, GPT 5.5 (xhigh) занимает первое место с 0,5% полностью решённых задач и 13,5% почти решённых (проходящих свыше 95% поведенческих тестов). Аналогичные показатели у GPT 5.5 (high): 0,5% полностью решённых и 5% почти решённых. Для сравнения, Claude Opus 4.7 (xhigh) демонстрирует 0% полностью решённых и 4,5% почти решённых задач, а обычная версия Opus 4.7 — 0% и 3% соответственно. Устаревшая модель Opus 4.6 показывает ещё более скромные результаты: 0% и 2,5%. Совокупно число почти решённых задач у GPT 5.5 достигло 26, что является рекордом рейтинга.

Примечательно, что в режиме medium, который OpenAI выставляет по умолчанию, GPT 5.5 лишь незначительно опережает Claude Sonnet 4.6. Однако при включении расширенного рассуждения её результат заметно улучшается. Это подтверждает, что дополнительные вычислительные ресурсы и более глубокий анализ задачи критически важны для достижения высоких показателей.

Разница в стоимости запуска также впечатляет. Запуск GPT 5.5 (high) обошёлся в $3,17 и потребовал 34 обращения к API, тогда как GPT 5.5 (xhigh) стоил $4,84 при 40 обращениях. Для сравнения, аналогичный запуск Claude Opus 4.7 (xhigh) оценивается в $10,74 при 178 обращениях, но при этом решение содержало 19 ошибок в поведенческих тестах. Авторы бенчмарка связывают провалы с двумя багами в коде Claude: чувствительностью парсера цветов к регистру и неверным кодом возврата.

Интересно, что две версии GPT 5.5 выбрали принципиально разные подходы к решению одной и той же задачи. Модель в режиме high использовала язык C с ANSI escape-последовательностями, тогда как xhigh предпочла Python. Команда ProgramBench отметила, что Claude Opus 4.7 (xhigh) применила библиотеку ncurses, что было охарактеризовано как креативное системное решение, однако это не дало преимущества в итоговом результате.

Автор

Сергей Сергеев

Сергей Сергеев — практикующий трейдер и автор FinTerminal. С 2013 года работает с Forex, криптовалютами и акциями, анализируя рыночные риски, волатильность, исполнение сделок и поведение цены в новостные периоды. В материалах сочетает собственный торговый опыт, статистику рынков и проверку условий брокеров для частных трейдеров и инвесторов. При подготовке публикаций опирается на данные регуляторов, рыночную статистику, биржевые котировки и публичные условия брокеров, отдельно отмечая риски, ограничения и спорные моменты, которые важно проверить перед принятием решения.

GPT 5.5 впервые в истории прошла задание из бенчмарка ProgramBench

Автор

Сейчас читают

Оставьте комментарий Отменить ответ

GPT 5.5 впервые в истории прошла задание из бенчмарка ProgramBench

Автор

Сейчас читают

По теме

Оставьте комментарий Отменить ответ