Обновить

Когда метод «просто погугли» не работает. Нишевые open source-инструменты для работы с научной и технической литературой

Время на прочтение7 мин
Охват и читатели17K
Всего голосов 8: ↑7 и ↓1+9
Комментарии18

Комментарии 18

Дополню, что для тех, кто использует для хранения документации/заметок/изображений/работы персональную вики, возможно даже не придётся менять этот инструмент.

Если персональная вики сделана на базе MediaWiki, то для неё тоже доступны AI-расширения. Первое, например, может что-то пересказать из содержимого вашей вики, что-то проанализировать. Установить расширение проще, чем переезжать на новый инструмент. Но спасибо за подборку бесплатных решений!

  1. Отсутствует понимание сути научной работы. Совсем.

  2. Научному сотруднику не нужны "саммари". Ему требуется понять суть (до мелочей) и интегрировать новое знание в его личную картину предметной области. Так он развивается. А если без понимания заглатывать тупые тексты от галлюцинирующего ИИ - это тупик.

  3. В каждой области есть весьма ограниченный список приличных журналов. Уточню: приличные - это те, которые рецензируются в признанных БД. Их немного и они всем ученым известны.

  4. Софт для работы с литературой давным-давно существует. Он более чем достаточен для нормальной работы (включая формирование списка литературы в требуемом формате).

  5. Реальной проблемой является доступ к качественному контенту. Этот доступ дорого стоит. А для нас в настоящее время перекрыт.

  6. Еще одной реальной проблемой является неформальные сообщества, которые фактически "прихватизируют" журналы. Не членам этой банды там опубликоваться крайне сложно. А размещать свои опусы в "Трудах Урюпинского кулинарного техникума" - это сколько угодно.

  7. Обзоры на фиг никому не сдались. Да еще в упоминаемых объемах. Если я в теме, то зачем мне обзор? у меня своя картотека. И авторы не понимают, что если "обзоров" 750, то в этом море вы утонете. Но ничего не поймете. Приличные обзоры как итог развития области на определенную дату заказывают ведущим ученым за вполне вменяемые деньги.

Реальной проблемой является доступ к качественному контенту. Этот доступ дорого стоит. А для нас в настоящее время перекрыт.

Сайхаб работать перестал? Его телеграм бот тоже? Архив заблочен? Или вам критично отдавать тысячи золота ежегодно издательству Эльзевир, за то что можно попячить с сайхаба?

Сайхаб с 2022 года не загружает новые статьи (Телеграм бот просто форма доступа), после того, как основательница договорилась о чём-то весьма мутном насчёт авторских прав на статьи с индийцами и затем пошла в какую-то околополитику, на мой субъективный взгляд – чтобы как следует продать проект подороже. Либген почти непрерывно лежит, архив содержит далеко не всё и не всегда есть версии без ошибок, новые статьи реально не достать.

Полистал, там не основательница договорилась, там издатели суды выиграли в Индии и стали нагибать индийских же провайдеров. Тащемта возгласы про необходимость защиты сайхаба в Индии примерно тогда раздавались от индийских пользователей. Но не убедили. Помимо этого пишут что начали быстрее банить аккаунты с которых было много скачиваний подорвав поток обновлений.

Так а чего основательница не загружает новые статьи?

Большинство статей до 2021 года есть на https://sci-hub.ru/. Если нет, то создатели предлагают мутку с https://sci-net.ru/. Альтернативно можно запросить на сабредитте https://www.reddit.com/r/Scholar/.

Если нет, то создатели предлагают мутку с https://sci-net.ru

Именно, что муть, да еще с мемкоинами. Просто Элбакян решила подзаработать, одновременно соблюдая копирайт. Просить на реддите -- ну, так себе.

Короче, нет нормального доступа к современным статьям, это факт.

Сайхаб как то заблочили (у нас), авторша очень возмущалась этим.

Большинство исследователей аффилированы либо с университетом, либо с НИИ и т.п., для которых государство закупает ежегодно большое количество проприетарных ресурсов - зарубежных баз данных. Вполне себе легальный и бесплатный способ пользоваться и новинками публикаций, и архивами.

Про техническую литературу.
Очень хотелось бы найти инструмент, которому я буду скармливать документацию, а он её будет категоризировать и отвечать на вопросы по содержанию, например делать сравнительные сводки по каким то параметрам устройств, описанных в десятках источников.
Если я задам вопрос ChatGPT - он ответит, иногда даже правильно. Но его ответы ненадёжны, скорее всего из-за массы сомнительных источников (кроме общей склонности к галлюцинациям).
Некоторые системы "базы знаний" очень привлекательны, но спотыкаются на количестве документов. Интерес представляет массив документов от десятков тысяч.

RAG?

RAG это технология. Я таких умных слов могу сам найти. А хочется инструмент, который может потянуть коллектив из одного человека на одном среднем GPU.

NotebookLM, если требование запускать локально необязательно. Если хочется локально, доступно множество инструментов для организации базы знаний и интеграции с LLM, вот некоторые из них: Open WebUI, LM Studio, Msty Studio, Librechat, Cherry Studio, Chatbox, AnythingLLM, GPT4All.

Это не совсем из нужной области, точнее вообще не из неё. "Для организации" что нужно и так понятно, всякие LM Studio это способ получить API к моделям, а нужно ещё построить графы похожести, и т.д. Непонятно какая конкретная система умеет. Joplin, Obsidian -это близкие системы, но они в принципе не могут работать с большими списками документов, даже если к ним прикрутить нужные плагины, но выглядеть система долна примерно как они.

Кстати, требование локальности в таких системах обязательно, документы часто конфиденциальные.

всякие LM Studio это способ получить API к моделям,

Это неверное утверждение.

нужно ещё построить графы похожести

Перечисленные мной системы это умеют из коробки, например, в Msty Studio эта функциональность называется Knowledge stacks.

Причем некоторые эксперты уже напрямую связывают релиз современных языковых моделей с постепенным снижением числа пользовательских вопросов на Stack Overflow.

Ничего себе "постепенное снижение" Посещаемость Stack Overflow упала на 70%!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
cloud.beeline.ru
Дата регистрации
Дата основания
Численность
501–1 000 человек
Местоположение
Россия