Время от времени я нахожу некоторую документацию относительно сети, в которой я нуждаюсь для офлайнового использования на моем ноутбуке. Обычно я разжигаю wget и получаю целый сайт.
Много проектов однако теперь переключаются на wikis, и это означает, что я загружаю каждую версию, и каждый "редактируют меня" ссылка, также.
Есть ли какой-либо инструмент или какая-либо конфигурация в wget, так, чтобы я, например, загрузил только файлы без строки запроса или соответствия определенному regexp?
Удачи,
Между прочим: wget имеет очень полезный переключатель-k, который преобразовывает любые ссылки в сайте на их локальные дубликаты. Это было бы другим требованием. Пример: Выборка страниц http://example.com. Затем все ссылки на "/..." или "http://example.com/..." должны быть преобразованы для соответствия загруженному дубликату.
Из wget страницы справочника:
- R rejlist - отклоняют rejlist
Укажите разделенные запятыми списки суффиксов имени файла или шаблонов, чтобы принять или отклонить. Отметить что если какой-либо из подстановочных символов, *?, [или], появитесь в элементе acclist или rejlist, его будут рассматривать как шаблон, а не суффикс.
Это походит точно, в чем Вы нуждаетесь.
Примечание: для сокращения нагрузки на сервер Wiki Вы могли бы хотеть посмотреть на-w, и - случайный - ожидают флаги.
Большинство из них осуждает это, и Википедия активно завершает работу их с robots.txt. Я придерживался бы http://en.wikipedia.org/wiki/Special:Export