бенчмарк

GPT 5.5 впервые в истории прошла задание из бенчмарка ProgramBench

Модель GPT 5.5 в режимах high и xhigh впервые в истории теста ProgramBench полностью прошла задание cmatrix. Рекордный результат: 0,5% полностью решённых задач и 26 почти решённых.

GPT 5.5 впервые в истории прошла задание из бенчмарка ProgramBench Читать дальше

Китайский учёный предложил новый метод оценки параметров ИИ-моделей через знания о фактах

Китайский исследователь разработал бенчмарк из 1400 вопросов для оценки количества параметров в языковых моделях через объём фактических знаний. Метод показал высокую корреляцию с известными параметрами открытых моделей,

Китайский учёный предложил новый метод оценки параметров ИИ-моделей через знания о фактах Читать дальше

Прокрутить вверх