Посты / Профиль dmitrifriend / Хабр

Пользователь

ПрофильСтатьи91Посты2Новости336Комментарии164

Вот так новость – ребята из BotHub прикрутили к себе систему “Гарант”, ту самую, которая знает законы РФ вдоль и поперек еще с тех времен, когда интернет был роскошью.

И теперь можно просто рубануть одну галочку – и модель начнет черпать актуальные знания из законодательства прямо на лету. Ни один нюанс не ускользнет!

Как включить? Да элементарно:

Ставим в правой панели галочку “Правовой поиск”;
Выбираем модель, которая умеет запускать инструменты в процессе ответа (хоть ChatGPT 5.2, хоть ChatGPT 5 Mini – без разницы);
Пишем вопрос, связанный с чем-то юридическим, и жмем Enter.

Всё! Система выдаст ответ и приложит текстовые файлы (.txt) с выдержками из законов.

Формат вопросов – как обычно, любой, можно своими словами. Вот, к примеру, что сразу пришло в голову:

Какие изменения для айтишников вступили с 1 января 2026 года?
По договору подряда: обязательные условия по ГК, риски заказчика, если нет акта приемки, и как защититься в контракте?
Купил телефон, через две недели начал глючить – могу ли требовать деньги назад, а не ремонт?
Пришел штраф с камеры, но за рулем был не я. Как оспорить и в какие сроки?
Можно ли снимать видео в торговом центре, если охрана сопротивляется?
Вернули товар без чека – законно ли это и чем можно заменить чек?

И самое приятное – модель не фантазирует, а цитирует и интерпретирует реальные законы через “Гарант”. Это же просто космос!

Можно задавать и сложные запросы, расписывать ситуацию в деталях, прикреплять документы – система разберется. Ответы будут понятны даже тем, кто в праве не шарит. Кстати, в интерфейсе есть слайдер “Максимальное количество поисков” – по умолчанию стоит 5, что дает 50 результатов (по 10 за запрос). Мелочь, а приятно.

⚹ ⚹ ⚹

Я, например, решил проверить на вечном вопросе: а можно ли вообще фотографировать что угодно в торговом центре?

И был поражен – оказалось, нюансов целая куча: люди в кадре или нет, видны ли лица, будешь ли публиковать… В ответе было штук 12 уточняющих пунктов! Выглядит убедительно и чертовски полезно.

П.С. Потыкать можно вот тут – дают бонус в 300 000 капсов на эксперименты:
https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7.

dmitrifriend

10 фев 2025 в 15:059K

Блог компании BotHubМатематика * Машинное обучение * Искусственный интеллект

Итак, группа исследователей создала платформу MathArena, где планируют делиться отчётами о сравнении нейросетей в различных математических проблемах. Для начала множество моделей уже протестировали на AIME 2025 I, олимпиаде, прошедшей в четверг.

Что такое AIME? American Invitational Mathematics Examination — элитное математическое состязание, проводимое с 1983 года. Существует две версии теста — AIME I и AIME II, но каждый участник может пройти только одну (хотя ИИ-моделям повезло, и вскоре появятся результаты для второй части). Олимпиада состоит из 15 задач, сложность которых возрастает.

Каждую модель тестировали по четыре раза на каждой задаче, вычисляя средний балл (столбец Acc — accuracy) и финансовую стоимость вычислений (столбец Cost). Для удобства использовалась цветовая кодировка: 🟩зелёный — задача решена в более чем 75% случаев; 🟨жёлтый — успех в 25–75% случаев; 🟥красный — модель справилась менее чем в 25% попыток. Щелчком по клетке можно открыть условие задачи, ход рассуждений модели в каждом из четырёх подходов и финальные ответы.

🏆o3-mini-high от OpenAI показала впечатляющий результат — 80% решённых задач при очень низкой стоимости вычислений.
🔹DeepSeek-r1, лидер среди опенсорс-моделей, набрал 65%, а его дистиллированные версии тоже продемонстрировали достойные результаты. (Кстати, уже пробовали запустить его в нашем агрегаторе нейросетей?)

Можно заметить, что дистилляты хоть и уступают своим полным аналогам, но не так уж сильно: сжатие DeepSeek-r1 с 671 млрд параметров до 70 или даже 14 млрд привело к падению эффективности в обоих случаях всего на 15%. То есть урезанная модель становится заметно легче, но при этом сохраняет бóльшую часть своих возможностей.

К сожалению, Claude 3.5 Sonnet, модель июня 2024-го, оказалась на дне рейтинга. Однако её сильная сторона явно не в этом — огромное контекстное окно (200 000 токенов) делает модель отличным инструментом для программирования. Кодеры подтверждают, что она хорошо генерирует длинные и сложные фрагменты кода.

Пока что в тестах не замечено семейства Phi. Phi-4 набирает 80%+ на сложнейших бенчмарках, таких как MATH, уверенно обходя Gemini Pro и GPT-4o-mini. Посмотрим, добавят ли авторы сайта её в дальнейшем🤔

Тем временем пользователи X забили тревогу и решили проверить честность олимпиады, задействовав свежачок от OpenAI — Deep Research. Цель? Выяснить, не мелькали ли эти задачки где-то в Сети раньше и, соответственно, не могли ли их решения заранее попасть в обучающие данные моделей. Ведь если так, то модели получали преимущество.

Нашлось ли что-то подозрительное? Как оказалось, похожие задачи действительно уже обсуждались на форумах.

Задача № 1: найти сумму всех целых оснований b > 9, для которых одно число делится на другое в системе счисления b. Аналогичное задание всплыло на Quora. Однако и различия существенны: на форуме просто рассматривались все возможные значения b, удовлетворяющие делимости, а в олимпиадном варианте — только те, которые больше 9. Это заметно сужает поиск и усложняет задачу.

Задача № 3: найти остаток от деления количества возможных распределений мороженого между игроками с заданными ограничениями. Deep Research нашёл похожую концепцию: обе задачи связаны с разбиением числа на несколько частей с учётом ограничений. Но здесь тоже есть нюансы: в олимпиадной версии обязательно, чтобы каждый из трёх вкусов достался хотя бы одному игроку, причём количество игроков, выбравших каждый вкус, подчиняется неравенству c > v > s. Более того, порядок распределения важен, что добавляет ещё один уровень сложности.

Итог. Похожие? Да. Идентичные? Нет. Найти аналоги почти любой задачи в интернете реально, если искать достаточно хорошо. Так что сказать, что модели видели точно такие же задачи, нельзя.

Информация

Специализация