Китайский учёный предложил новый метод оценки параметров ИИ-моделей через знания о фактах


Китайский учёный предложил новый метод оценки параметров ИИ-моделей через знания о фактах

Китайский исследователь из университета Цинхуа представил новый подход к оценке количества параметров в языковых моделях, который основан на анализе объёма фактических знаний, а не на экономике инференса. Этот метод позволяет получить более точные оценки для закрытых систем, таких как GPT-5.5, Claude Opus 4.6 или Gemini 2.5 Pro, которые традиционно скрывают свои архитектурные детали.

Автор работы, опубликованной 27 апреля 2026 года на платформе arXiv, создал бенчмарк из 1400 вопросов, охватывающих факты разной степени редкости — от широко известных до крайне специализированных. Эти вопросы были использованы для тестирования 89 открытых моделей с известным числом параметров. Результаты показали чёткую лог-линейную зависимость между количеством параметров и точностью ответов на вопросы: коэффициент детерминации R² составил 0,917. Это означает, что модель с большим количеством параметров способна хранить и извлекать больше фактической информации.

Исследователь применил разработанную методику к оценке параметров закрытых моделей, сравнив их результаты с калибровочной кривой. Полученные оценки оказались неожиданными: GPT-5.5, по расчётам, может содержать около 9,7 триллиона параметров, что значительно превышает аналогичные показатели конкурентов. Claude Opus 4.6 оценивается в 5,3 триллиона параметров, а Claude Sonnet 4.6 — в 1,7 триллиона. Gemini 2.5 Pro, согласно расчётам, насчитывает около 1,2 триллиона параметров. Важно отметить, что эти оценки являются нижними границами, так как некоторые модели могут отказываться отвечать на определённые вопросы из-за настроек безопасности.

Несмотря на то, что метод не лишён погрешностей, он открывает новые возможности для анализа закрытых моделей, которые ранее оставались недоступными для независимых исследователей. Это может способствовать более прозрачному сравнению архитектур и стимулировать развитие открытых альтернатив. В то же время, точность оценок зависит от качества бенчмарка и калибровки, что требует дальнейших исследований и уточнений.

Работа китайского учёного подчёркивает важность фактических знаний как ключевого ресурса в развитии больших языковых моделей. В отличие от способностей к рассуждению, которые можно дистиллировать в более компактные архитектуры, объём фактических данных ограничен энтропией Шеннона и напрямую зависит от размера модели. Это делает предложенный метод особенно ценным для оценки закрытых систем, где традиционные подходы дают значительную погрешность.

Автор

  • фото сергей сергеев

    Сергей Сергеев — практикующий трейдер и автор FinTerminal. С 2013 года работает с Forex, криптовалютами и акциями, анализируя рыночные риски, волатильность, исполнение сделок и поведение цены в новостные периоды. В материалах сочетает собственный торговый опыт, статистику рынков и проверку условий брокеров для частных трейдеров и инвесторов. При подготовке публикаций опирается на данные регуляторов, рыночную статистику, биржевые котировки и публичные условия брокеров, отдельно отмечая риски, ограничения и спорные моменты, которые важно проверить перед принятием решения.

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Прокрутить вверх