Обновить

Комментарии 44

Пока я просто сохраняю нужные мне странички средствами браузера в mhtml. Сайтов, целиком пригодных к скачиванию, не так уж и много (обычно это какие-то авторские работы типа книг или методичек на университетских сайтах). Но для таких есть телепорт про и другие подобные программы.

А идеальная система - просто некая кнопка типа "лайка", аналогичная добавлению в закладки, по нажатию на которую страница сохраняется в оффлайне, добавляется в какие-то оффлайновые базы для поиска, и - в идеале - ставится на раздачу в децентрализованной сети.

НЛО прилетело и опубликовало эту надпись здесь
Спасибо, для Firefox пригодится, а то там нет встроенного сохранения в mhtml
Сколько ни пробовал подобных решений — в результате отказывался от них, обнаруживая косяки. Лучше уж сохранить по старинке и запаковать в zip. Оно как-то надежнее получается и для беспроблемного открытия в будущем. Сейчас проверил — в SingleFile на сохранённых страницах спойлеры, например, не работают.
Снимите галочку в настройках SingleFile: Other resources => remove scripts.
Ух ты! Это я просмотрел, спасибо! Я в «Содержимое HTML» это ожидал увидеть.

А вот ещё такой вопрос. Спойлеры перед сохранением нужно открыть, иначе их содержимое не попадает в локальную копию. Я это приноровился делать через скрипт Greasemonkey через кликание на элементах спойлера требуемых сайтов. На особо медленных компах после рендеринга странички можно даже заметить закрывающиеся спойлеры) А как-то более цивилизованно эту проблему решить можно?
Вот с этим, увы, не подскажу.
Знаю лишь, что для многих спойлеров достаточно отключить настройку remove scripts. При этом раскрывать спойлеры перед сохранением страницы не требуется: пример 1, пример 2.
НЛО прилетело и опубликовало эту надпись здесь
До сего дня пользовался попеременно расширением Save Page WE и печатью на PDF принтер.
Теперь — только SingleFile. Спасибо за рекомендацию!

https://yg140.servegame.com/ru/company/vdsina/blog/550180/

Персональный интернет-архив без боли

ArchiveBox — продвинутый архиватор сайтов с огромным количеством поддерживаемых форматов и интерфейсов.

Возможности
  • Список сайтов можно подать на вход кучей разных способов (TXT, RSS, XML, JSON, CSV, SQL, HTML, Markdown, и т.д.), но самое интересное это импорт из всех основных браузеров (закладки, история) и «закладочных» сервисов (Pocket, Pinboard, Instapaper, Reddit Saved, OneTab и другие).

  • Хранение данных в HTML, JSON, PDF, PNG, и WARC — без самописных, проприетарных или новомодных форматов. При этом доступны и необычные методы экспорта, вроде извлечения текста (как в режиме Reader в браузерах) или Git-репозитория для скачанного со страницы кода.

  • Взаимодействие через терминал, веб-интерфейс, Python API, REST API и десктопное приложение (последние два варианта пока в альфе) на всех основных ОС (на винде нужен Docker или WSL)

  • Архивирование по расписанию (в сочетании с использованием истории браузера получается цепочка автосохранения всех посещённых сайтов)

  • Опционально — отправка URL на archive.org (чтобы иметь бэкап не только локально, но и на проверенных серверах)

  • Проект полностью опенсорсный, все надстройки опциональны и доустанавливаются в виде модулей. При отключенном экспорте в Internet Archive вообще все данные остаются на локальной машине, а при использовании Headless Chromium вместо Chrome можно обеспечить себе полную приватность.

  • Запланировано: использование JS-скриптов во время архивирования, для вырезания рекламы/попапов/разворачивания веток комментариев прямо на лету.

  • Уже работает, но нестабильно: сохранение контента за логином/пейволлом по кукам.

Ну а для локального хранения небольшого количества нужных страниц FireFox + PrintEditWE + SavePageWE

НЛО прилетело и опубликовало эту надпись здесь

Я использую расширение для браузера Joplin Webclipper, который по сути часть Joplin app (https://joplinapp.org/) в которой веду базу знаний с заметками в формате markdown.

Что больше всего радует это работа и синхронизация баз между ПК и телефоном через Dropbox.

Тоже пользуюсь Joplin, однако для синхронизации использую Nextcloud - более приватно получается, когда на свой сервер сохраняешь.

более приватно получается
Я бы не сказал, что приватнее связки Dropbox+шифрование Joplin.
НЛО прилетело и опубликовало эту надпись здесь
У меня 136 заметок. Из метаданных там видно только число файлов и дату их создания/изменения. Каким образом раскрытие этой информации ставит под угрозу мою приватность?

Эта информация ничего не даст атакующему. Какие-то заметки обновляются иногда, какие-то никогда, какие-то ежедневно. Можно даже предположить, что последняя это ToDo. Но что с того?

У всех приличных заметочников есть клипперы: Evernote, OneNote, Notion. Есть и у Zotero, специализированного инструмента для хранения материалов.

Какие-то лучше работают, какие-то хуже, но в целом для персонального архива решений "из коробки" предостаточно.

всё так, но Joplin - opensource, бесплатные приложения для телефона, нет ограничений на объем или количество заметок. Облачная копия базы хранится не в облаке разработчика, и как следствие, бесплатные безлимитное хранилище в случае next cloud, либо объем вашего тарифного плана в случае dropbox.

За счет нет риска получить тыкву, если разработчик вдруг решит уменьшить количество бесплатных заметок, наложить санкции и т. д.

В качестве WARC-прокси/просмотрщика может выступать http://www.tofuproxy.stargrave.org, сам который использую. Динамическое добавление, удаление, индексирование, поддержка сегментированных .warc.gz/.warc.zst.

Странно, что в браузеры не встраивают функцию "добавить в архив" (по аналогии с добавить в закладки) - жмакнул кнопку и вот тебе копия страницы в локальном хранилище

Кстати, чем архив отличается от сохранения страницы браузером по CTRL+S?

Содержание не скачивает, только ссылки и тамбы?

Скачивает, и это тоже вариант. Только вопросом управление хранилищем занимаетесь вы (в какую папку, с каким именем, как потом найти). А если на уровне браузера по аналогии с закладками реализовать, то сохраненное лежит в папках браузера, доступно по тегам/наименованию и (потенциально) может синхронизироваться на разных устройствах, где браузер авторизован вашим аккаунтом.

Угу...

Тут не понял:

А если на уровне браузера по аналогии с закладками реализовать,

А ctrl+s на уровне ядра или браузера реализовано?

Ctrl+S это просто сохранить копию страницы на диск, как сохранить документ в вроде или екселе. А я говорю про сервис/фичу от браузера. Т.е. не "я ж сам все могу", а "вот у нас удобный встроеный сервис"

Ктрл+С вызывает функцую браузера выполняющую сохранение страницы, однако я не понимаю о какой фиче Вы говорите?

  • я не хочу думать о месте и структуре хранения - пусть браузер (его разработчики) выберут где и как оно хранится;

  • если сохранить файл на диск, то поиск нужного надо делать по файловой системе, а браузер в адресной строке не покажет сохраненные страницы после перемещения файлов, переустановки браузера или ОС - пусть браузер хранит и индексирует сохраненное самостоятельно;

  • я хочу иметь доступ к сохраненным копиям страниц с разных устройств (домашний комп, рабочий ноут, смартфон) - пусть браузер синхронизирует сохраненные страницы между моими устройствами.

Вот такую фичу я хочу

Получается расширить функционал браузера при сохранении страниц

elinx --dump "https://yg140.servegame.com/ru/post" |gzip > o_web_archive.gz

zgrep 'шаман|buben|webarchive' /zabil/*. gz

Спасибо за статью. Просто есть еще вот такой способ, у которого тоже есть достоинства.

Если у вас скачаны все голливудские фильмы за последние 50 лет в разрешении 4K, то не остаётся вариантов, кроме магнитной ленты. Современные картриджи формата LTO-9 объёмом 45 терабайт стоят не очень дорого.

Боюсь вы несколько ошибаетесь. 45 Тб — это с сжатием. А в реальности может получиться и все 18 Тб. Тоже немало, но цифра всё же уже не так впечатляет. Плюс LTO, тем более 9-ка, всё же технология уже достаточно тонкая и есть там некоторые проблемы с поиском привода, который бы нормально всё прочитал через много лет.

А что бы вы посоветовали не сильно дорогое для SOHO? Именно с заделом "чтобы потом было проще прочитать"

У меня нет такого опыта, чтобы советовать. Просто ко мне пару раз обращались именно с такой проблемой. А насколько она проблемная статистически я даже и не знаю, может это не так и страшно и всего у 0,001% встречается. В энтерпрайзе всё же пленка-то используется. С другой стороны в энтерпрайзе без проблем и в запас приводы покупают, да и могут денег отвалить за архивные модули. А в личных целях это будет непланируемое разорение. Я в своё время сделал ставку на обычные диски + Blu-Ray. Для операционного материала используется зеркальный RAID, для архивного — всё остальное, особо важное ещё и закатывается на 100 Гб болванки. Но тут всё зависит от объёмов. Да и 5 лет назад цены на диски-то были более гуманные.

Eсть такое понятие как "контрагентский риск" - все эти политики не более, чем "обещание".

Хабр даёт автору возможность убрать пост в черновики в любое время.

Время от времени пропадают аккаунты вместе со всеми статьями.

Есть инструмент SaveHabr, где можно выполнять команды:

./save_post 433806
./save_post https://yg140.servegame.com/ru/company/first/blog/584838/
./save_user Dee3

Формат warc лично я не особо понимаю, чем он лучше простого архива?
Всё равно приходится распаковывать для удобного использования.

Не устаю призывать: дамы и господа, пожалуйста, сохраняйте важные страницы не только себе, но и в Архив интернета. Кто-то в будущем скажет вам спасибо.

Сайты прекрасно сохраняются в Joplin с помощью его же плагина для браузеров.

Чтобы уменьшить количество битых ссылок в статьях на Хабре, хорошо бы разрешать сохранение в них дополнительных материалов, тех же *.docx например.
Сейчас, насколько я знаю, Хабр сохраняет у себя только картинки из статей.
Что на это скажет уважаемый boomburum?

archivebox выглядит интересно. А то сильно неудобно в FF каждый раз переключаться в Reader mode и оттуда в PDF "печатать" удобочитаемый контент (без смузистилей, баннеров и прочего).

Сохранность контента, конечно, печалит. Даже для контента который остался опубликован на хабре часто можно увидеть что скрины потеряны безвозвратно.

И отдельные вопросики с форматами хранения, чтобы это потом ещё и прочесть можно было нормально на любом подручном, в т.ч. на телефоне или е-книжке. Тут, мне кажется, не хватает возможности выгонять контент в Markdown или epub. У Instapaper есть возможность группу статей экспортнуть в epub - вот что-то такое же хочется видеть для хабра в формате "еженедельный дайджест"

up: что-то попробовал archivebox натравить на эту статью и с лёту обломался(

> ArchiveBox -... (официально поддерживаются ... и BSD)

А BSD оффициально поддерживается в каком смысле?

pkg search archivebox мне результатов не дал.

В портах я этот ArchiveBox тоже не нашёл.

Какие для BSD есть ещё официальные варианты поддержки?

Как его в FreeBSD установить? Брать исходники и компилировать самому?

Попробовал после этой статьи ArchiveBox и не остался особо доволен. Сохранять страницы кучей разных методов это, наверное(?), хорошо, но во многих случаях хочется сохранение полной копии сайта, а не просто одной странички. И это он не умеет. Как и не умеет менять ссылки на локальные, в случае если глубину сохранения поставить в единичку (кстати в этом случае он в том числе и сохраняет внешние ссылки). Работает медленно и не слишком удобно.

Причём судя по всему разрабов активно просят этот функционал ещё c 2019 года (они говорят что это одна из самых частых просьб к ним), но они упорно игнорируют эту просьбу. А жаль, иметь удобный локальный веб-сервис для сохранения целых вебсайтов локально, подобно выводу HTTrack, было бы удобно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
firstvds.ru
Дата регистрации
Дата основания
Численность
101–200 человек
Местоположение
Россия
Представитель
FirstJohn