Все потоки

Поисковые технологии *

От AltaVista до Яндекса

СтатьиПостыНовостиАвторыКомпании

nejava 8 янв в 08:03

Контент, который ест сам себя

Простой

6 мин

6.5K

Блог компании Axiom JDKИскусственный интеллектКонтент и копирайтинг * Поисковая оптимизация * Поисковые технологии *

Мнение

Да, это хаб про Java и разработку, но в новогодние каникулы его «захватили» маркетологи: решили размять мозги не хардкором, а хайповой темой про ИИ-контент на площадке, которая развивается и зарабатывает благодаря UGC (user generated content) и экспертным текстам - это про Хабр. И разработчикам тут тоже есть что обсудить: мы все пишем статьи, доки и комментарии, а ИИ уже меняет правила игры интересно, как с этим будет жить Хабр и как вы сами к этому относитесь: фильтруете, боретесь или используете в полный рост.

Если вы работаете с контентом, особенно B2B, то вы уже заметили это: привычный поиск в Яндексе или Google перестаёт работать как раньше. ИИ-ассистенты медленно, но уверенно меняют правила игры. Раньше процессы SEO были понятными (с оговорками на постоянное изменение алгоритмов, но все же): написал статью, прокачал ключи, получил трафик. Сегодня этого уже недостаточно. ИИ-ассистенты дают готовый ответ прямо на запрос пользователя, зачастую не приводя к переходу на сайт. А ваша команда потратила часы и недели на подготовку документации и сложного контента, который вместо целевого трафика получил пшик!

Читать далее

+9

Puzer 5 янв в 19:16

Обучение эмбеддингов GitHub репозиториев

Средний

6 мин

12K

Машинное обучение * Веб-разработка * GitHub * Поисковые технологии *

Из песочницы

У вас есть GitHub ? Ставите Stars ?
Используя эту информацию можно многое про вас рассказать.

В статье вы прочитаете как обучить эмбединги для 300к GitHub репозиториев и как их можно подгрузить прямо в браузере используя WASM для создания рекомендаций.

Читать далее

+13

akazant 2 янв в 19:45

Базовый RAG-компонент для локального семантического поиска на Питоне

9 мин

13K

Искусственный интеллектПрограммирование * Python * Поисковые технологии *

Кейс

Сезон ИИ в разработке

quad_rag_core — лёгкое Python-ядро для локального RAG, которое автоматически отслеживает изменения в папках, индексирует их в Qdrant и поддерживает эмбеддинги в актуальном состоянии. Изначально проект задумывался как инструмент MCP (Model Context Protocol), но стал основой для любой системы локального семантического поиска.

Зачем это нужно

В процессе работы с кодовой базой через LLM-агентов и при необходимости локального семантического поиска по файлам проекта обнаружилась проблема. Инструменты агентской разработки вроде Kilo Code предоставляют встроенную функцию семантического поиска, но в компании заявляют, что в будущем эта функциональность может стать платной. Сразу задумался о том чтобы сделать свою подсистему поиска. Простые запросы к MCP-серверу на поиск и обновление тут не подойдут - система поиска должна иметь полный контроль над контекстом - она должна автоматически узнавать, что файл удалён, функция изменена или добавлен новый документ, без необходимости перезапуска индексации.

От идеи к архитектуре

В начале планировался простой MCP-сервер, который принимает команды поиска и обновления, индексирует текстовые файлы и PDF, использует Qdrant как векторное хранилище и эмбеддит локально.

В ходе проектирования стало понятно: вся логика отслеживания файлов, парсинга, чанкинга и синхронизации с Qdrant — это переиспользуемое ядро, а не часть MCP-протокола.

Так появился quad_rag_core — отдельный Python-модуль, который не знает ничего про MCP или другие внешние интерфейсы, но готов к ним подключаться.

Читать далее

+11

mmmc 31 дек 2025 в 21:09

ATMO Shield: открытый инструмент для приватного мониторинга нервной системы на базе HRV и локального AI

Простой

3 мин

14K

Анализ и проектирование систем * Аналитика мобильных приложений * Дизайн мобильных приложений * Поисковая оптимизация * Поисковые технологии *

Роадмэп

Recovery Mode

Привет, Хабр!

Я — независимый разработчик, и хочу рассказать о своём open-source проекте ATMO NeuroYoga — мобильном приложении для заботы о нервной системе. Текущая версия 1.4.1 уже доступна и включает упражнения NeuroYoga breathing и интерактивные точки акупрессуры. Но главная цель проекта — ATMO Shield, полностью оффлайн инструмент для непрерывного мониторинга и защиты нервной системы на основе вариабельности сердечного ритма (HRV).

Читать далее

0

dkourmyshov 28 дек 2025 в 14:46

Нейропоисковик на 17 миллионов картинок: OpenCLIP, Qdrant и ZeroTier вместо облаков

Средний

7 мин

13K

Машинное обучение * Python * DIY или Сделай самСерверная оптимизация * Поисковые технологии *

Из песочницы

Как сделать свой аналог Pinterest, если у вас нет бюджета корпорации, но есть 4 ТБ картинок (17 миллионов штук) и желание искать по ним не просто по тегам, а по визуальному стилю?

В статье — опыт построения распределенной системы поиска из подручных средств. Разбираем архитектуру: — Гибридное хранение: Backblaze B2 (холодное) + Домашний сервер (вычисления). — Сеть: Как ZeroTier объединил разрозненные ноды в одну Mesh-сеть без белых IP. — Векторный поиск: Как уместить 17 миллионов векторов OpenCLIP ViT-H/14 в 32 ГБ RAM с помощью Qdrant и квантизации. — Оптимизация: Почему поиск работает за 5 мс, а загрузка метаданных тормозила до 3 секунд, и как PostgreSQL спас ситуацию.

Полный разбор ETL-пайплайна и экономики домашнего HighLoad-проекта.

Читать далее

+19

dtimoshe 22 дек 2025 в 01:44

Как ИИ создает живой профиль: персонализация через постоянное обучение

Простой

7 мин

9.5K

Будущее здесьИскусственный интеллектПоисковые технологии * Социальные сети

Кейс

В первой части я рассказывал о том, как искусственный интеллект меняет поиск людей через анализ глубинных ценностей и намерений. Сегодня — о том, как ИИ создает и постоянно обновляет ваш профиль, делая его не статичной анкетой, а живой моделью вашей личности.

В качестве примера снова использую наш проект Linkeon.ru. Это продолжение истории о ценностном поиске людей.

Читать далее

-3

IgorN 18 дек 2025 в 11:34

Настоящее и будущее поиска в Ecommerce

Средний

15 мин

6.1K

Блог компании CompoМашинное обучение * Программирование * Open source * Поисковые технологии *

Мнение

В этом материале мы детально рассмотрим, какие архитектуры и подходы применяются в средних и крупных интернет‑магазинах, с какими проблемами они сталкиваются и какие решения оказываются наиболее эффективными. Эпизодически мы будем смотреть на лидеров российских маркетплейсов, поскольку они дальше продвинулись в развитии поисковых технологий и зачастую задают тренды российского рынка.

Читать далее

+5

Mikhail_Khludnev 18 дек 2025 в 09:10

Семантический поиск в Managed OpenSearch

6 мин

4.8K

Блог компании ReksoftData Engineering * Big Data * Разработка публичных облаков * Поисковые технологии *

Туториал

В предыдущей статье мы говорили о текстовом поиске, а в сегодняшней я расскажу о векторном (семантическом) поиске.

Итак, если мы используем OpenSearch, в Yandex Cloud представляется логичным использовать модели вложений этого же облака.

Этот код можно запустить как Python Cloud Function. Написан он исходя из того, что в каталоге сервисного аккаунта, под которым запускается функция, доступна модель вложений (embedding). Детали подключения к кластеру описаны в документации.

Рассмотрим один крайний случай: если мы подключаемся, указывая FQDN DATA-узлов, у которых не включен публичный доступ, то функция должна запускаться в сети кластера OpenSearch, иначе они будут недоступны. Альтернативные варианты: подключаться через «Особый FQDN» или узел DASHBOARD с публичным доступом.

Код создаёт тестовый индекс с текстовым и векторным полем, явно вызывает embedding model через REST API, создавая векторы вложений для документов и запроса, и выполняет векторный поиск, демонстрируя способ интеграции. Обратите внимание на способ выбора разных моделей для документов и запросов.

Читать далее

+3

alyonayurchenko 17 дек 2025 в 08:37

Эксперты прокомментировали акселератор «Умный город» в МГТУ им. Н.Э. Баумана

4 мин

4.6K

Микросервисы * Монетизация мобильных приложений * Открытые данные * Поисковые технологии * Разработка под e-commerce *

Репортаж

Recovery Mode

15 декабря в МГТУ им. Н.Э. Баумана (в питчинг-формате) прошел финальный Демо-день акселерационных программ «Умный город» и «Робототехника и беспилотные авиационные системы» (БАС). В течение трех месяцев студенческие команды под руководством опытных наставников последовательно работали над своими проектами. На мероприятии в МГТУ они представляли свои разработки бизнес-сообществу, инвестиционным фондам, институтам развития и другим заинтересованным сторонам, которые способствуют укреплению технологического суверенитета.

Читать далее

0

kolesov93 11 дек 2025 в 09:08

Техрепорт Alice AI: как мы создавали новое поколение моделей для самого популярного ИИ-ассистента в России

46 мин

24K

Блог компании ЯндексМашинное обучение * Natural Language Processing * Алгоритмы * Поисковые технологии *

Сегодня мы делимся техрепортом, в котором разобран полный цикл создания нового семейства моделей Alice AI: базовая текстовая Alice AI LLM и специализированная LLM Search, мультимодальная Alice AI VLM и картиночная Alice AI ART.

В части про Alice AI LLM расскажем, как сделали упор в Alignment на RL и Reward Modeling: мы минимизируем число разрозненных RL-стадий, собирая «общий RL». Вместо хрупкого «суперсигнала» используем аспектную формулировку качества и агрегируем её в целевую функцию, чтобы изменения критериев не требовали пересборки всей разметки. В главе про Alice AI LLM Search расскажем про многократные последовательные походы в Поиск с последующей фильтрацией/ранжированием источников. А также о том, как готовим ответы с использованием документов разной модальности (веб-документы, картинки, видео, гео).

Чтобы «вывезти» MoE-модель на сотни миллиардов параметров, мы целенаправленно сняли инфраструктурные ограничения обучения и инференса: в обучении используется YaFSDP (которую мы выложили в опенсорс) и собственная библиотека коллективных коммуникаций YCCL. В прод-инференсе мы работаем под SLA (avg TPOT ≤ 70 ms, p95 TTFT ≤ 2 s) и достигаем их комбинацией TP Attention/EP FFN, KV cache reuse, FP8 w8a8kv8 (в т. ч. сжатие KV cache ~3,05→~1,52 GB) и спекулятивного декодинга EAGLE‑3, что в сумме даёт 5.8× ускорение относительно BF16 (и 1,32× относительно лучшего open-source). Параллельно для Alice AI VLM нарастили в 1,5 раза объем претрейна, контекст до 32k и обновили OCR-датасет; VLM-генератор работает «из коробки», а для математики/геометрии выделен специализированный VLM‑решатель. В пайплайне Alice AI ART повышение релевантности к промпту начинается с диагностики смещений в датасете с помощью VLM и последующей адресной коррекции обнаруженных проблем.

Недавно все эти модели и решения легли в основу нашего нового ИИ-ассистента, и уже к ноябрю, согласно исследованию Mediascope, Алиса AI вышла на первое место по используемости среди россиян (14,3%), обойдя ранее доминировавший DeepSeek (9,4%). Кроме того, модель Alice AI LLM теперь доступна и для разработки собственных AI-решений на платформе Yandex AI Studio.

Читать техрепорт

+66

MaxRokatansky 11 дек 2025 в 06:16

Elasticsearch: реляционная база данных против поискового движка — Битва Титанов

Средний

7 мин

6K

Блог компании OTUSJava * Базы данных * Поисковые технологии *

Обзор

В мире разработки часто возникает соблазн использовать знакомый инструмент для всех задач. Зачем изучать что-то новое, если есть проверенная реляционная база данных (РСУБД), такая как PostgreSQL или MySQL? Однако, когда дело доходит до реализации мощного, быстрого и релевантного поиска, этот подход терпит неудачу.

Elasticsearch — это не просто база данных, это распределенный поисковый и аналитический движок. В этой статье мы проведем детальное сравнение Elasticsearch и реляционных баз данных, разберемся в их архитектурных различиях и определим, когда каждый из инструментов становится титаном в своей нише.

Чтобы статья была максимально практико-ориентированной, мы рассмотрим, как с помощью Spring Boot быстро поднять приложение с интегрированным Elasticsearch и реализовать поиск, который «летает».

Читать далее

+2

Mikhail_Khludnev 10 дек 2025 в 09:00

Managed OpenSearch Yandex Cloud. Автоматизация и управление кластером

3 мин

3.7K

Блог компании ReksoftПоисковая оптимизация * Поисковые технологии * Разработка публичных облаков * Data Engineering *

Туториал

Привет, Хабр!

Сегодня предлагаю обсудить Managed OpenSearch Yandex Cloud. Поговорим о том, как автоматизировать управление кластером, чтобы сократить расходы на разработку, и как улучшить качество поиска на русском языке, используя доступные в сервисе инструменты морфологии.

Читать далее

+5

Yaroslav_Khnykov 9 дек 2025 в 15:18

Нейросетевая модель интересов пользователя: как мы улучшили разнообразие и релевантность рекомендаций на главной Авито

Средний

9 мин

17K

Блог компании AvitoTechМашинное обучение * Поисковая оптимизация * Поисковые технологии *

Привет! С вами Ярослав Хныков — senior ML engineer в Авито. В статье расскажу, как мы повысили разнообразие и релевантность рекомендаций на главной странице. Материал будет особенно интересен специалистам, которые работают с рекомендательными системами.

Читать далее

+37

raliev 8 дек 2025 в 15:43

Мои книги по Search & Recsys

Простой

7 мин

6.1K

Поисковые технологии *

Обзор

Друзья, я наконец опубликовал третью книгу по теме поиска (плюс еще одна по близкой теме рекомендательных систем). Они очень нишевые, рассчитаны на специалистов, и я подумал, что Habr просто идеальное место сообщить об этом.

Во всех четырех книгах ноль воды, и очень плотно изложен материал, с ссылками на научные статьи и иллюстрациями, где они реально необходимы.

Anatomy of Ecommerce Search

https://testmysearch.com/books/anatomy-of-ecommerce-search.html

Начнем с той, что вышла сегодня - Anatomy of Ecommerce Search.

Читать далее

0

vikorbit 8 дек 2025 в 09:50

Векторный поиск: как выбрать систему и не пожалеть

22 мин

12K

Блог компании ТензорБазы данных * Поисковые технологии * Искусственный интеллектOpen source *

Обзор

От поиска по архивам документов и медиафайлам до рекомендательных систем и AI приложений — всюду работают эмбеддинги и векторный поиск. Но когда дело доходит до выбора конкретного инструмента, глаза разбегаются: Qdrant, Milvus, Weaviate, Redis, Elasticsearch, Pgvector…

Если вы:

• планируете внедрять семантический поиск в свой продукт,
• выбираете между проверенными временем БД и специализированными системами обработки векторов,
• ищете независимые бенчмарки,

то этот материал — для вас. Мы разберем основные концепции векторного поиска, сравним популярные open-source решения и протестируем скорость их работы с учетом загрузки процессора и памяти.

Читать далее

+38

AndreyTrig 4 дек 2025 в 14:29

Zero-Click как новая норма: как измерять SEO-видимость в эпоху AI-SERP

Средний

6 мин

7.5K

Блог компании AGIMAИскусственный интеллектПоисковые технологии * Поисковая оптимизация *

Обзор

Всем привет! Меня зовут Андрей Попов, я SEO-специалист в AGIMA. Поисковая выдача 2025 года — это не список ссылок, а многоуровневая панель данных, где ответы генерируются прямо внутри SERP. Более половины поисков заканчиваются без клика, а Google AI Overviews вместе с режимом AI Mode перераспределяют внимание пользователей между десятками поверхностей.

В этой среде SEO перестает гнаться за CTR. Теперь SEO — это борьба за долю присутствия. Успех в этом контексте определяется не тем, сколько кликов получает бренд, а тем, насколько часто он мелькает в выдаче.

Читать далее

+7

DVZakusilo 2 дек 2025 в 07:00

Как я создал HHBro — платформу для умного поиска работы на HeadHunter

Простой

17 мин

4.4K

Удалённая работаПоисковые технологии *

Кейс

Пол года назад у меня была простая идея: большинство соискателей проводят часы на hh.ru, листая сотни вакансий, но редко находят то, что идеально подходит. Чем больше вакансий, тем дольше поиск. Тем выше риск упустить что-то стоящее. Я подумал — а что если создать платформу, которая использует ИИ для умного анализа?

Так родилась идея HHBro.ru — приложение, которое не просто показывает вакансии с hh.ru, а анализирует каждую через призму вашего резюме и находит идеальные совпадения.

Это был проект, который я разрабатывал в одиночку — от концепции до деплоя. Без финансирования, без команды, только идеи и энтузиазм.

Важное замечание: Как соло-проект без инвестиций, HHBro развивается медленнее, чем хотелось бы. Есть недостатки и баги, есть фичи, которые я хочу добавить, но на которые пока нет времени. Но я полон идей и энтузиазма! В этой статье я поделюсь не только тем, что получилось, но и тем, как я подошел к разработке, какие решения принимал, и как планирую развивать проект дальше.

Читать далее

+3

ContentAI_Team 28 ноя 2025 в 18:27

Как корпоративный поисковый портал стал платформой для цифровых ассистентов

11 мин

3.8K

Блог компании Content AIИскусственный интеллектNatural Language Processing * Поисковые технологии *

Привет! Меня зовут Антон Фролов — я ведущий менеджер продукта в Content AI. В этой статье расскажу, как мы превратили корпоративный поисковый портал Intelligent Search в платформу для создания цифровых ассистентов с поддержкой LLM.

Если у вас уже есть прототип ассистента на базе open-source компонентов, платформа может помочь оперативно разработать решение production-уровня для автоматизации различных процессов с внутренними документами.

Читать далее

+9

arniksup 26 ноя 2025 в 15:47

DAT: новый способ гибридного поиска в RAG с динамической настройкой альфа-параметра

Средний

15 мин

8.7K

Поисковые технологии * Машинное обучение * Искусственный интеллектData Engineering *

Из песочницы

Перевод

Привет, Хабр! Недавно у меня появилась задача - собрать RAG-систему для интернет-энциклопедии. В поисках решения я вышел на новый подход к гибридному RAG - “DAT: Dynamic Alpha Tuning for Hybrid Retrieval in Retrieval-Augmented Generation” (Динамическая настройка Альфа-параметра для гибридного поиска в RAG).

Поиск по Хабру и Рунету показал, про подход DAT на русском языке еще не рассказывали, поэтому спешу поделиться находкой с вами и обсудить преимущества и недостатки этого метода. Эта статья - упрощённый пересказ научной работы. Материал будет интересен как продвинутым, так и начинающим разработчикам RAG-систем.

Читать далее

+12

Ja-gagarin 18 ноя 2025 в 14:01

Трафик из нейросетей: как попасть в выдачу ИИ и превратить нейроответы в новый канал продвижения

Простой

12 мин

12K

Интернет-маркетинг * Контент и копирайтинг * Поисковая оптимизация * Поисковые технологии *

С 2007 года я занимаюсь SEO и развиваю собственное рекламное агентство. Последние 9 месяцев плотно погрузился в исследование нейросетей как источника трафика, и мы с командой запустили отдельное направление GEO и AEO-продвижения. Такое решение продиктовано двумя причинами:

Читать далее

+13

2

3 4 ...