runaway_llm17 часов назад

Claude Opus 4.6 поставил рекорд времени автономной работы — и сломал бенчмарк METR

2 мин

Искусственный интеллектМашинное обучение *

Комментарии 10

Kasyan666 17 часов назад

Хм... Учитывая стоимость данной модели, мне интересно сколько стоили эти 14,5 часов.

KivApple 15 часов назад

На тарифе за 100$ 5-часовой лимит не успевает тратиться даже при непрерывном кодинге в одну сессию. Полагаю, на тарифе за 200$ можно запустить несколько (4-5) Клодов работать над разными задачами в разных папках.

Dmitriila 14 часов назад

по подписке гугла, плюс минус эта же подписка не больше (входит в подписку Ultra)

ArZr 17 часов назад

В январе METR обновил набор задач до версии 1.1: добавил 34% новых тестов и вдвое увеличил число задач длиннее 8 часов.

Просто для справки: из 31 одной задачи длиннее 8 часов только 5 имеют оценки требуемого времени, основанные на результатах людей, (и то, там 5 задач из RE-Bench, который буквально лежит в открытом доступе) у остальных 26 задач временные затраты были измерены колдунствами от самих METR. От этого, как полагаю, и получаются такие результаты.

модели прогрессируют быстрее, чем исследователи успевают создавать новые испытания.

Забавно, что публично они жалуются на "мы не успеваем делать новые задачи", но при этом в версии 1.1 удалили почти 15 задач (v1 имела 170 задач, если что) без объяснения причин

В целом интересно, что Opus 4.6 на реальных задачах и в других бенчмарках в принципе не демонстрирует такого разгромного превосходства. Так что чувствую знатный буллщит

Dhwtj 17 часов назад

15 часов делать что?

В голову приходит только случай когда пытались написать компилятор си, а спецификаций не хватало и использовали оракул - GCC. Мы не знаем какой должен быть компилятор, но у нас есть GCC. Результат так себе

ArZr 16 часов назад

15 часов делать что?

Скорее всего, ничего особенного. METR же известны своими "особыми" отношениями как минимум с OpenAI, поощрением дезинформации, веселыми замерами и ИИ-бустеризмом. Крайне сомневаюсь, что основная цель этого графика - измерение каких-то способностей у моделей.

max-daniels 12 часов назад

Написано же - это не нейросеть работала 15 часов, а количество времени, который бы потратил человек на этот объем работы.

evomed 16 часов назад

Сейчас вайбкодеры, которые "работают в криптовалюте", придут и опять всех поувольняют.

oookkdjjjdjdj 15 часов назад

По сути бенчмарк упёрся в потолок. Модели слишком часто проходят задачи, и дальше начинается экстраполяция на основе почти пустоты. Ну да, красиво растёт кривая. Но уверенность там плавает конечно

Alexdrbnd 15 часов назад

Поюзал я пару дней Claude Sonnet 4.6 - делает больше ошибок чем 4.5 в программировании. Ощущается разница даже просто в диалогах

Зарегистрируйтесь на Хабре, чтобы оставить комментарий