beeline_cloud25 окт 2025 в 15:35

Когда метод «просто погугли» не работает. Нишевые open source-инструменты для работы с научной и технической литературой

7 мин

17K

Блог компании Beeline CloudПрофессиональная литература * Искусственный интеллектИсследования и прогнозы в IT * GTD *

Обзор

Комментарии 18

sepetov 25 окт 2025 в 16:14

Дополню, что для тех, кто использует для хранения документации/заметок/изображений/работы персональную вики, возможно даже не придётся менять этот инструмент.

Если персональная вики сделана на базе MediaWiki, то для неё тоже доступны AI-расширения. Первое, например, может что-то пересказать из содержимого вашей вики, что-то проанализировать. Установить расширение проще, чем переезжать на новый инструмент. Но спасибо за подборку бесплатных решений!

Elpi 25 окт 2025 в 20:24

Отсутствует понимание сути научной работы. Совсем.
Научному сотруднику не нужны "саммари". Ему требуется понять суть (до мелочей) и интегрировать новое знание в его личную картину предметной области. Так он развивается. А если без понимания заглатывать тупые тексты от галлюцинирующего ИИ - это тупик.
В каждой области есть весьма ограниченный список приличных журналов. Уточню: приличные - это те, которые рецензируются в признанных БД. Их немного и они всем ученым известны.
Софт для работы с литературой давным-давно существует. Он более чем достаточен для нормальной работы (включая формирование списка литературы в требуемом формате).
Реальной проблемой является доступ к качественному контенту. Этот доступ дорого стоит. А для нас в настоящее время перекрыт.
Еще одной реальной проблемой является неформальные сообщества, которые фактически "прихватизируют" журналы. Не членам этой банды там опубликоваться крайне сложно. А размещать свои опусы в "Трудах Урюпинского кулинарного техникума" - это сколько угодно.
Обзоры на фиг никому не сдались. Да еще в упоминаемых объемах. Если я в теме, то зачем мне обзор? у меня своя картотека. И авторы не понимают, что если "обзоров" 750, то в этом море вы утонете. Но ничего не поймете. Приличные обзоры как итог развития области на определенную дату заказывают ведущим ученым за вполне вменяемые деньги.

Matshishkapeu 25 окт 2025 в 20:34

Реальной проблемой является доступ к качественному контенту. Этот доступ дорого стоит. А для нас в настоящее время перекрыт.

Сайхаб работать перестал? Его телеграм бот тоже? Архив заблочен? Или вам критично отдавать тысячи золота ежегодно издательству Эльзевир, за то что можно попячить с сайхаба?

Imaginarium 25 окт 2025 в 22:34

Сайхаб с 2022 года не загружает новые статьи (Телеграм бот просто форма доступа), после того, как основательница договорилась о чём-то весьма мутном насчёт авторских прав на статьи с индийцами и затем пошла в какую-то околополитику, на мой субъективный взгляд – чтобы как следует продать проект подороже. Либген почти непрерывно лежит, архив содержит далеко не всё и не всегда есть версии без ошибок, новые статьи реально не достать.

Matshishkapeu 26 окт 2025 в 11:09

Полистал, там не основательница договорилась, там издатели суды выиграли в Индии и стали нагибать индийских же провайдеров. Тащемта возгласы про необходимость защиты сайхаба в Индии примерно тогда раздавались от индийских пользователей. Но не убедили. Помимо этого пишут что начали быстрее банить аккаунты с которых было много скачиваний подорвав поток обновлений.

Imaginarium 27 окт 2025 в 18:42

Так а чего основательница не загружает новые статьи?

Un_ka 26 окт 2025 в 13:15

Большинство статей до 2021 года есть на https://sci-hub.ru/. Если нет, то создатели предлагают мутку с https://sci-net.ru/. Альтернативно можно запросить на сабредитте https://www.reddit.com/r/Scholar/.

Imaginarium 27 окт 2025 в 18:42

Если нет, то создатели предлагают мутку с https://sci-net.ru

Именно, что муть, да еще с мемкоинами. Просто Элбакян решила подзаработать, одновременно соблюдая копирайт. Просить на реддите -- ну, так себе.

Короче, нет нормального доступа к современным статьям, это факт.

KonstantinTokar 26 окт 2025 в 15:22

Сайхаб как то заблочили (у нас), авторша очень возмущалась этим.

ABims 29 окт 2025 в 05:13

Большинство исследователей аффилированы либо с университетом, либо с НИИ и т.п., для которых государство закупает ежегодно большое количество проприетарных ресурсов - зарубежных баз данных. Вполне себе легальный и бесплатный способ пользоваться и новинками публикаций, и архивами.

KonstantinTokar 26 окт 2025 в 00:17

Про техническую литературу.
Очень хотелось бы найти инструмент, которому я буду скармливать документацию, а он её будет категоризировать и отвечать на вопросы по содержанию, например делать сравнительные сводки по каким то параметрам устройств, описанных в десятках источников.
Если я задам вопрос ChatGPT - он ответит, иногда даже правильно. Но его ответы ненадёжны, скорее всего из-за массы сомнительных источников (кроме общей склонности к галлюцинациям).
Некоторые системы "базы знаний" очень привлекательны, но спотыкаются на количестве документов. Интерес представляет массив документов от десятков тысяч.

Imaginarium 26 окт 2025 в 07:28

RAG?

KonstantinTokar 26 окт 2025 в 09:33

RAG это технология. Я таких умных слов могу сам найти. А хочется инструмент, который может потянуть коллектив из одного человека на одном среднем GPU.

Imaginarium 27 окт 2025 в 18:54

хмм... RAG? Или другой RAG. Много их. Но так лень за Вас гуглить, Вы не представляете.

DarkGenius 26 окт 2025 в 13:30

NotebookLM, если требование запускать локально необязательно. Если хочется локально, доступно множество инструментов для организации базы знаний и интеграции с LLM, вот некоторые из них: Open WebUI, LM Studio, Msty Studio, Librechat, Cherry Studio, Chatbox, AnythingLLM, GPT4All.

KonstantinTokar 26 окт 2025 в 15:21

Это не совсем из нужной области, точнее вообще не из неё. "Для организации" что нужно и так понятно, всякие LM Studio это способ получить API к моделям, а нужно ещё построить графы похожести, и т.д. Непонятно какая конкретная система умеет. Joplin, Obsidian -это близкие системы, но они в принципе не могут работать с большими списками документов, даже если к ним прикрутить нужные плагины, но выглядеть система долна примерно как они.

Кстати, требование локальности в таких системах обязательно, документы часто конфиденциальные.

DarkGenius 26 окт 2025 в 16:23

всякие LM Studio это способ получить API к моделям,

Это неверное утверждение.

нужно ещё построить графы похожести

Перечисленные мной системы это умеют из коробки, например, в Msty Studio эта функциональность называется Knowledge stacks.

AppCrafter 26 окт 2025 в 07:45

Причем некоторые эксперты уже напрямую связывают релиз современных языковых моделей с постепенным снижением числа пользовательских вопросов на Stack Overflow.

Ничего себе "постепенное снижение" Посещаемость Stack Overflow упала на 70%!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий