Обновить

Комментарии 10

Хм... Учитывая стоимость данной модели, мне интересно сколько стоили эти 14,5 часов.

На тарифе за 100$ 5-часовой лимит не успевает тратиться даже при непрерывном кодинге в одну сессию. Полагаю, на тарифе за 200$ можно запустить несколько (4-5) Клодов работать над разными задачами в разных папках.

по подписке гугла, плюс минус эта же подписка не больше (входит в подписку Ultra)

В январе METR обновил набор задач до версии 1.1: добавил 34% новых тестов и вдвое увеличил число задач длиннее 8 часов.

Просто для справки: из 31 одной задачи длиннее 8 часов только 5 имеют оценки требуемого времени, основанные на результатах людей, (и то, там 5 задач из RE-Bench, который буквально лежит в открытом доступе) у остальных 26 задач временные затраты были измерены колдунствами от самих METR. От этого, как полагаю, и получаются такие результаты.

модели прогрессируют быстрее, чем исследователи успевают создавать новые испытания.

Забавно, что публично они жалуются на "мы не успеваем делать новые задачи", но при этом в версии 1.1 удалили почти 15 задач (v1 имела 170 задач, если что) без объяснения причин

В целом интересно, что Opus 4.6 на реальных задачах и в других бенчмарках в принципе не демонстрирует такого разгромного превосходства. Так что чувствую знатный буллщит

15 часов делать что?

В голову приходит только случай когда пытались написать компилятор си, а спецификаций не хватало и использовали оракул - GCC. Мы не знаем какой должен быть компилятор, но у нас есть GCC. Результат так себе

15 часов делать что?

Скорее всего, ничего особенного. METR же известны своими "особыми" отношениями как минимум с OpenAI, поощрением дезинформации, веселыми замерами и ИИ-бустеризмом. Крайне сомневаюсь, что основная цель этого графика - измерение каких-то способностей у моделей.

Написано же - это не нейросеть работала 15 часов, а количество времени, который бы потратил человек на этот объем работы.

По сути бенчмарк упёрся в потолок. Модели слишком часто проходят задачи, и дальше начинается экстраполяция на основе почти пустоты. Ну да, красиво растёт кривая. Но уверенность там плавает конечно

Поюзал я пару дней Claude Sonnet 4.6 - делает больше ошибок чем 4.5 в программировании. Ощущается разница даже просто в диалогах

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости