Anthropic выпустила исследование о том, как люди используют автономных ИИ-агентов в продакшене. Для этого они посмотрели на миллионы взаимодействий в Claude Code и на вызовы инструментов через публичный API.

Самый наглядный сигнал – это длительность работы Claude Code без остановки. Медианный “ход” короткий (порядка 45 секунд), а вот 99.9-й перцентиль за три месяца почти удвоился: с <25 минут до >45 минут. Причём рост получился плавным и не совпадает скачками с релизами моделей — то есть автономность в практике растёт не только из-за самой модели, но и из-за доверия пользователей и привычки делегировать.

Дальше — как меняется стиль контроля по мере опыта. Новички чаще подтверждают каждый шаг руками, но по мере “стажа” переключаются на auto-approve: примерно с 20% сессий у новых пользователей до >40% у тех, кто набрал сотни сессий.

Интересный парадокс: при этом опытные пользователи прерывают агента чаще. Anthropic приводят оценку на уровне “ходов”: где-то с 5% прерываний у новичков до ~9% у опытных. Логика такая: меньше микроменеджмента, больше наблюдения и вмешательства только когда "повело не туда".

Ещё один слой контроля — когда сам агент останавливается. На сложных задачах Claude Code задаёт уточняющие вопросы чаще, чем человек его прерывает. То есть модель снижает автономность, когда не уверена.

Отдельно Anthropic посмотрела на публичный API: там они не могут собрать “сессии” клиентов, поэтому анализируют действия по отдельным tool calls и оценивают для них риск и автономность по шкале 1–10 (риск — по последствиям ошибки, автономность — насколько действие похоже на самостоятельное поведение, а не на выполнение пошаговой команды).

Отдельно Anthropic посмотрела на публичный API: там они не могут собрать “сессии” клиентов, поэтому анализируют действия по отдельным tool calls и оценивают для них риск и автономность по шкале 1–10 (риск — по последствиям ошибки, автономность — насколько действие похоже на самостоятельное поведение, а не на выполнение пошаговой команды).

По доменам пока доминирует софт: около половины всех агентных действий — software engineering. Но уже виден рост в здравоохранении, финансах и кибербезопасности.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!