SkillsBench: скиллы дают реальный буст, но только если их писал человек / Хабр

Исследователи сделали первый бенчмарк, который измеряет, помогают ли «скиллы» ИИ-агентам решать задачи. Его назвали SkillsBench.

Skill — это, по сути, папка с инструкциями, скриптами и подсказками, которую агент читает перед тем, как приступить к задаче. Что-то вроде методички для конкретной предметной области. Такие скиллы уже активно используются в Claude Code, Gemini CLI и Codex CLI, но до сих пор никто систематически не проверял, работают ли они вообще.

Для бенчмарка собрали 86 задач из 11 доменов (от разработки до медицины), привлекли 105 экспертов, прогнали 7 308 итераций на 7 моделях. Каждую задачу тестировали в трёх режимах: без скиллов, со скиллами, написанными человеком и со скиллами, которые модель написала себе сама.

Результаты интересные. Скиллы, которые написали люди, в среднем повышают pass rate на 16.2 п.п. На 16 из 84 задач скиллы ухудшили результат. Самогенерированные скиллы не помогли вообще (-1.3 п.п. в среднем). Модели не умеют писать себе инструкции, которые потом сами же и используют.

Ещё два наблюдения: компактные скиллы из 2-3 модулей работают лучше подробных документаций, а маленькая модель со скиллами может обогнать большую без них. Haiku 4.5 со скиллами (27.7%) обошла Opus 4.5 без скиллов (22.0%).

С полными результатами исследования можно ознакомиться тут: https://arxiv.org/pdf/2602.12670

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!