Комментарии 10
Хм... Учитывая стоимость данной модели, мне интересно сколько стоили эти 14,5 часов.
В январе METR обновил набор задач до версии 1.1: добавил 34% новых тестов и вдвое увеличил число задач длиннее 8 часов.
Просто для справки: из 31 одной задачи длиннее 8 часов только 5 имеют оценки требуемого времени, основанные на результатах людей, (и то, там 5 задач из RE-Bench, который буквально лежит в открытом доступе) у остальных 26 задач временные затраты были измерены колдунствами от самих METR. От этого, как полагаю, и получаются такие результаты.
модели прогрессируют быстрее, чем исследователи успевают создавать новые испытания.
Забавно, что публично они жалуются на "мы не успеваем делать новые задачи", но при этом в версии 1.1 удалили почти 15 задач (v1 имела 170 задач, если что) без объяснения причин
В целом интересно, что Opus 4.6 на реальных задачах и в других бенчмарках в принципе не демонстрирует такого разгромного превосходства. Так что чувствую знатный буллщит
15 часов делать что?
В голову приходит только случай когда пытались написать компилятор си, а спецификаций не хватало и использовали оракул - GCC. Мы не знаем какой должен быть компилятор, но у нас есть GCC. Результат так себе
15 часов делать что?
Скорее всего, ничего особенного. METR же известны своими "особыми" отношениями как минимум с OpenAI, поощрением дезинформации, веселыми замерами и ИИ-бустеризмом. Крайне сомневаюсь, что основная цель этого графика - измерение каких-то способностей у моделей.
Написано же - это не нейросеть работала 15 часов, а количество времени, который бы потратил человек на этот объем работы.
Сейчас вайбкодеры, которые "работают в криптовалюте", придут и опять всех поувольняют.
По сути бенчмарк упёрся в потолок. Модели слишком часто проходят задачи, и дальше начинается экстраполяция на основе почти пустоты. Ну да, красиво растёт кривая. Но уверенность там плавает конечно
Поюзал я пару дней Claude Sonnet 4.6 - делает больше ошибок чем 4.5 в программировании. Ощущается разница даже просто в диалогах

Claude Opus 4.6 поставил рекорд времени автономной работы — и сломал бенчмарк METR