Обновить
76.37

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Из «песочницы» в Production: как мы масштабировали RAG-систему для эксперта по охране труда

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели5.1K

Привет, Habr! Наша команда LLM-разработки подготовила статью о реальном практическом опыте тюнинга и тонкой настройке RAG-системы в области охраны труда. Каждый, кто начинал работать с LLM, проходил через этот «медовый месяц»: вы берете LangChain, загружаете с десяток PDF-файлов в ChromaDB, пишете простенький промпт — и происходит магия. Бот отвечает, эксперты в восторге, MVP готов за выходные.

Но магия исчезает ровно в тот момент, когда в базу знаний прилетает тысяча документов, а цена ошибки из «просто забавной галлюцинации» превращается в юридические риски и штрафы. В нашем проекте «Марк» (протестировать тут: @AI_assistantOT_bot)  — ИИ-эксперте по охране труда — мы столкнулись именно с этим: наивный RAG на больших данных не просто работает хуже, он разваливается.

Мы заглянем под капот системы, которая прошла путь от локального скрипта до сложной архитектуры на LangGraph.

Мы подробно разберем:

Читать далее

Новости

Генеративная выдача повышает требования к источникам: обзор ключевых новостей и исследований GEO 2026

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5K

Генеративный поиск быстро эволюционирует: он предъявляет более высокие требования к надежности источников, использует ограниченный объем текста и при этом остается заметно вариативным в рекомендациях. Это меняет фокус GEO: вместо попыток добиться разовых упоминаний важнее обеспечить устойчивое присутствие бренда в ответах и AI-блоках поиска. Для этого нужны доказательные материалы, четкая структура страниц, понятные метрики присутствия и понимание того, как AI-поиск использует информацию с сайта.

Ниже – мой разбор 4 недавних публикаций, которые дополняют друг друга и дают цельную картину изменений в генеративной выдаче на начало 2026 года. 

Читать далее

Geo — это обман? Seo будет жить? Как продвигаться в AI-выдаче: GEO без просадок и иллюзий

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели6.4K

Скажите честно: вы до конца понимаете что есть GEO и что оно вам даёт?

Есть ощущение, что не хватает информации, чтобы оценить объективно. На наш 2026 мы видим всё те же 2 лагеря: для кого-то GEO волшебная пилюля, а для кого-то плацебо. Скажу вам как SEO/GEO специалист — ни одно, ни другое. Оптимизация под ИИ — это тоже инструмент со своими плюсами, минусами и особенностями. А ещё это, скорее, надстройка над SEO, а не замена. Сейчас объяснюсь.

В статье разберём:

- при каких условиях GEO эффективен;

- какие НО есть у GEO и чего они вам будут стоить;

- как эксперту строить устойчивое AI-цитирование с умом и рассудительностью.

Читать далее

Откликаться на всё подряд — новая норма? Почему AI-помощники стали must-have в поиске работы на hh.ru

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.6K

Привет, Хабр!

Если вы хотя бы раз в последний год искали работу на hh.ru, вы точно знакомы с этим чувством: листаешь ленту, откликаешься на десятки вакансий, а в ответ — тишина. Конкуренция за место выросла почти в два раза, а HR тонут в море шаблонных откликов. Стратегия «распыляться и надеяться» больше не работает. Она просто выжигает время и мотивацию.

Гораздо эффективнее другая тактика — умный, сфокусированный поиск. Не больше откликов, а релевантнее. И здесь на помощь приходят AI-инструменты, которые перестали быть просто игрушкой. Они становятся рабочим стеклом соискателя.

Давайте разберем, как именно AI может спасти ваши нервы и повысить КПД поиска, и как встроить это прямо в ваш текущий процесс — без танцев с бубном.

Читать далее

HeadHunter виноват в сломанном найме

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели84K

Все мы знаем, что сейчас найти работу — особенно в IT — стало заметно сложнее.

Но что, если я скажу, что в этой ситуации частично виноват HeadHunter — доминирующая площадка на рынке поиска работы?

Казалось бы, всё предельно просто: есть люди, которые ищут работу, и есть работодатели, которым нужны специалисты. Нужно всего лишь свести одних с другими — и готово.

Но каким образом на таком, казалось бы, элементарном процессе можно умудриться всё испортить?

Да очень просто — сделать работу сервиса максимально непрозрачной. Настолько, что попадёт ли твоя анкета в выдачу у работодателя, порой кажется зависящим от фазы Луны.

Но обо всем по порядку.

Читать далее

Не «AI-SEO», а нормальный текст: исследование Рунити как ИИ читает сайты и что это меняет в SEO

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели4.4K

Привет, Хабр! На связи команда отдела поисковой оптимизации и продвижения интернет-ресурсов Рунити. Мы занимаемся SEO-продвижением сайтов: работаем с органическим трафиком, анализируем данные, проверяем гипотезы и смотрим, как изменения в поиске отражаются на реальных показателях проектов.

За последний год SEO заметно изменилось. Дело не в новых факторах ранжирования и не в очередном апдейте алгоритмов, а в том, как теперь работает поиск. Пользователь получает ответ на запрос прямо в выдаче, а наличие сайта в топе больше не гарантирует переход и стабильный органический трафик. Мы видим эти изменения не только на уровне рынка, но и в данных по собственным проектам. Поэтому решили самостоятельно проверить, как именно ИИ-ответы в поиске влияют на клики, CTR и поведение пользователей по информационным запросам. В этой статье поделимся результатами и выводами.

Читать далее

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели19K

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это.

Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так

curl -fsSL https://ollama.com/install.sh | sh

а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так

curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh

Представлено 2 версии qwen3-coder-next

Читать далее

Пошаговый запуск собственного LLM сервера от А до Я

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели12K

Введение

В сети сейчас полно «гуру» и коучей, которые обещают запустить собственную LLM почти на ноутбуке. Да, это технически возможно, но обычно речь идёт о моделях в диапазоне от млн до млрд параметров. Такая модель будет работать, однако — медленно, и её практическая ценность будет ограничена. В результате многие пользователи разочаровываются в локальных LLM.

 В этой статье я расскажу, как пошагово развернуть собственный сервер для инференса LLM, чтобы получить действительно полезный инструмент.

 Зачем нужен локальный сервер LLM?

Читать далее

Боязнь и недоверие к нейросетям: почему мы так реагируем на LLM технологии

Время на прочтение5 мин
Охват и читатели9.1K

Вводные данные: год назад я, как и многие, скептически относился к искусственному интеллекту, считая его лишь набором «умных» запросов к интернету. После нескольких разговоров с публичной нейросетью меня поразили её способности, но мои коллеги по‑прежнему уверенно утверждали, что ИИ – это просто огромная база данных. Я собрал собственный сервер, запустил локальную нейросеть без доступа к сети, но даже предложение протестировать её на моём GPU‑сервере никого не заинтересовало. Что скрывается за этим скептицизмом? Почему люди отрицают возможности ИИ, хотя внутри уже чувствуют тревогу перед неизвестным?

Читать далее

Как на потоке получать продуктовые инсайты из звонков в службу поддержки

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.4K

Привет, Хабр! Продуктовая аналитика хорошо работает с событиями и метриками, но ломается на живых коммуникациях. Звонки зачастую остаются неохваченными анализом, хотя именно там слышно как клиент злится или сомневается, но эти сигналы доходят до менеджера продукта хаотично, а не в системном виде.

В этом гайде разберём, как превратить записи звонков в продуктовые инсайты без ручного прослушивания — с помощью Python, звонков от МТС Exolve, интерфейса на Streamlit и нейронкой MWS GPT от МТС.

Читать далее

Тихая смерть robots.txt

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели37K

Десятки лет robots.txt управлял поведением веб-краулеров. Но сегодня, когда беспринципные ИИ-компании стремятся к получению всё больших объёмов данных, базовый общественный договор веба начинает разваливаться на части.

В течение трёх десятков лет крошечный текстовый файл удерживал Интернет от падения в хаос. Этот файл не имел никакого конкретного юридического или технического веса, и даже был не особо сложным. Он представляет собой скреплённый рукопожатием договор между первопроходцами Интернета о том, что они уважают пожелания друг друга и строят Интернет так, чтобы от этого выигрывали все. Это мини-конституция Интернета, записанная в коде.

Файл называется robots.txt; обычно он находится по адресу вашвебсайт.com/robots.txt. Этот файл позволяет любому, кто владеет сайтом, будь то мелкий кулинарный блог или многонациональная корпорация, сообщить вебу, что на нём разрешено, а что нет. Какие поисковые движки могут индексировать ваш сайт? Какие архивные проекты могут скачивать и сохранять версии страницы? Могут ли конкуренты отслеживать ваши страницы? Вы сами решаете и объявляете об этом вебу.

Эта система неидеальна, но она работает. Ну, или, по крайней мере, работала. Десятки лет основной целью robots.txt были поисковые движки; владелец позволял выполнять скрейпинг, а в ответ они обещали привести на сайт пользователей. Сегодня это уравнение изменилось из-за ИИ: компании всего мира используют сайты и их данные для коллекционирования огромных датасетов обучающих данных, чтобы создавать модели и продукты, которые могут вообще не признавать существование первоисточников.

Файл robots.txt работает по принципу «ты — мне, я — тебе», но у очень многих людей сложилось впечатление, что ИИ-компании любят только брать. Cегодня в ИИ вбухано так много денег, а технологический прогресс идёт вперёд так быстро, что многие владельцы сайтов за ним не поспевают. И фундаментальный договор, лежащий в основе robots.txt и веба в целом, возможно, тоже утрачивает свою силу.

Читать далее

Как использовать API поисковых подсказок Google

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.1K

Google Autocomplete (Google Suggest) — механизм автодополнения поисковых запросов, который отображает подсказки в реальном времени. Несмотря на отсутствие официальной документации, его поведение достаточно стабильно и широко используется в SEO, анализе поискового интента и сборе семантики.

Читать далее

ОСИНТ для ленивых. Часть 1: Как не вляпаться в непонятное, когда и так все понятно

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели12K

OSINT — занятие для любопытных, а любопытство штука такая, которую государство и все причастные, стремятся ограничить всеми доступными мерами.

Давайте прикинем, как совать свой любопытный нос так, чтобы его не прищемили.

Читать далее

Ближайшие события

Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

Уровень сложностиСложный
Время на прочтение12 мин
Охват и читатели8.9K

Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval?

Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена.

В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.

Читать далее

ChatGPT как новый маркетплейс: трансформация e-commerce в эпоху нейросетевых интерфейсов

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7.3K

Всем привет! Меня зовут Андрей Попов, я SEO-специалист в AGIMA. По прогнозам аналитиков, к 2028 году трафик от ИИ-ассистентов может превысить объемы традиционного поиска. Это ставит под угрозу привычные функции маркетплейсов, SEO-оптимизации и рекламы.

В этой статье попробуем разобраться, как ChatGPT становится конкурентом для ecom-компаний, и почему брендам придется бороться не только за место в поисковых системах, но и за лучшие ответы от нейросетей.

Читать далее

Сделал бота для автоматизации поиска лидов

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели6.7K

Собрал систему на Python + LLM, которая парсит Telegram-чаты, находит людей с конкретными болями и генерирует персонализированные сообщения для аутрича

Читать далее

ИИ-агенты: как мы сделали DeepResearch по корпоративным данным и кодовой базе

Время на прочтение9 мин
Охват и читатели21K

ИИ‑агенты — очень горячая тема. Кажется, все их делают, но также кажется, что реальную пользу приносит только небольшая часть. Один из основных удачных примеров — DeepResearch, глубокий поиск, отвечающий на сложные вопросы. Многие им пользуются в ChatGPT или Perplexity, но у внешних решений нет доступа к нашим корпоративным данным, поэтому мы сделали свой DeepResearch и сэкономили время сотрудников компании.

Меня зовут Сергей Скородумов, я руководитель отдела поисковых сервисов. В статье расскажу про ИИ‑агентов в целом, как мы делали своего, за счёт чего растили его качество и какие главные выводы сделали. 

Читать далее

OSINT и цифровой след

Время на прочтение8 мин
Охват и читатели8K

Всем привет! Сегодня поговорим об Open Source Intelligence (далее по тексту — OSINT), разведке на основе открытых источников. Это систематизированный процесс поиска в интернете — не взлом и не покупка слитых баз — общедоступной информации и ее дальнейшая аналитика. К методам OSINT прибегают как в легальных целях, так и с недобрым умыслом. Как все это выглядит на практике?

Читать далее

Perplexity AI: Как превратить ИИ-поисковик в инструмент для работы и учёбы

Уровень сложностиПростой
Время на прочтение14 мин
Охват и читатели32K

Уже более полутора лет Perplexity почти полностью заменяет мне классический поиск, помогая в работе, учёбе и бытовых вопросах.

Для доступа к Perplexity из России не нужен VPN, есть мобильное приложение и собственный браузер Comet. В наличии много популярных AI-моделей. Базовые функции - бесплатны. Для студентов есть скидка 75% на версию Pro.

В этой статье я постарался систематизировать свой опыт работы с Perplexity.
Мы разберем, как превратить Perplexity из «умного чата» в интерактивную базу знаний, используя Spaces, Tasks, Comet Assistant и другие функции.

Читать далее

Yandex Cloud Workflows: $global под Foreach

Время на прочтение4 мин
Охват и читатели5.3K

Workflow Automation be like

Сегодня пост для тех, кто не наигрался в пошаговые стратегии: о Yandex Cloud Serverless Integration Workflows. Нетрудно догадаться, что это представитель обширнейшего поля Workflow Automation Tools, eg OSS: Apache Airflow/Hop, n8n to name a few. Но YC Wokflows не Open Source, конечно же. Окей, ближайший аналог, скажем, AWS Step Functions.

Одна из его характерных особенностей — использование JQ как одного из краеугольных камней. Прямо скажем, не Yandex's vibe 🚲 ⛔. Не могу сказать, что было легко с JQ, нахлынули какие-то воспоминания об XSLT (не кликайте, не надо!). В целом, конечно, работает, но у любой абстракции существует критическая точка взаимодействия с реальным миром: по отдельности $global, Foreach и сложные шаги, например, работают замечательно, но их комбинация пока является крайним случаем, где всё не совсем очевидно.

Рассмотрим пример простого вызова языковой модели:

Читать далее
1
23 ...