Использование Wget для рекурсивной проверки сайта и образов загрузки

Question

Использование Wget для рекурсивной проверки сайта и образов загрузки

Как Вы даете wget команду рекурсивно проверять веб-сайт и только загружать определенные типы изображений?

Я пытался использовать это, чтобы проверить сайт и только загрузить изображения Jpeg:

wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html

Однако даже при том, что page1.html содержит сотни ссылок на подстраницы, которые сами имеют прямые ссылки на изображения, wget вещи отчетов как "Удаление subpage13.html, так как оно должно быть отклонено" и никогда не загружает изображений, начиная ни с одного непосредственно связаны с из начальной страницы.

Я предполагаю, что это вызвано тем, что мои - принимают, используется для и направления проверки и содержания фильтра для загрузки, тогда как я хочу это, раньше только направлял загрузку содержания. Как я могу заставить wget проверить все ссылки, но только загрузить файлы определенными расширениями как *.jpeg?

Править: Кроме того, некоторые страницы являются динамичными, и сгенерированы с помощью сценария CGI (например, img.cgi? fo9s0f989wefw90e). Даже если я добавляю cgi к моему принимать список (например, - accept=jpg, jpeg, HTML, cgi) они все еще всегда отклоняются. Существует ли путь вокруг этого?

13

wget web-crawler script bash linux

задан Cerin 29.03.2011, 18:23

Ссылка

2 ответа

Eric Hu · Answer 1 · 07.12.2019, 11:42

Как Вы ожидаете, что wget будет знать содержание subpage13.html (и так jpg's, который он связывает с), если не позволяется загрузить его. Я предлагаю, чтобы Вы позволили HTML, получили то, что Вы хотите, затем удаляете то, что Вы не хотите.

Я не совсем уверен в том, почему Ваш cgi's становится отклоненным... там какой-либо вывод ошибок wget? Возможно, сделайте wget подробный (-v) и посмотрите. Могло бы быть лучшим как отдельный вопрос.

Тем не менее, если Вы не заботитесь о пропускной способности и загружаете партии, затем удаляют то, что Вы не хотите после, она не имеет значения.

Также выезд --html-extension

Из страницы справочника:

- E

- расширение HTML

Если файл приложения типа/xhtml+xml или текста/HTML загружается, и URL не заканчивается regexp. [Гд] [Tt] [мм] [Ll]?, эта опция заставит суффикс .html быть добавленным к локальному имени файла. Это полезно, например, когда youâre зеркальное отражение удаленного сайта, который использует .asp страницы, но Вы хотите, чтобы зеркальные страницы были видимы на Вашем сервере Apache запаса. Другое хорошее использование для этого состоит в том когда youâre загрузка CGI-ener-ated материалы. URL как http://site.com/article.cgi?25 будет сохранен как article.cgi?25.html.

Обратите внимание, что имена файлов, измененные таким образом, будут повторно загружены каждый раз, когда Вы повторно зеркально отражаете сайт, потому что Wget canât говорят, что локальный файл X.html соответствует удаленному URL X (начиная с него, doesnât все же знают, что URL производит вывод текста/HTML типа или application/xhtml+xml. Для предотвращения этой перезагрузки необходимо использовать-k и-K так, чтобы исходная версия файла была сохранена как X.orig.

--restrict-file-names=unix могло бы также быть полезным из-за тех cgi URL...

score -1 · Answer 2 · 07.12.2019, 11:42

Попытайтесь добавить --page-requisites опция

-1

ответ дан 07.12.2019, 11:42

Ссылка

Использование Wget для рекурсивной проверки сайта и образов загрузки

2 ответа

Теги

Похожие вопросы