Проверка большого каталога с wget с двумя ссылками, указывающими на то же самое

Я пытаюсь проверить каталог на веб-сайте и в основном загрузить все в нем. Структура достаточно проста (но существует также несколько папок), но существует одна вещь, которая составляет дроссель wget. Источник выглядит примерно так:

<a href="index.php?path=/blah/whatever&download=resource.txt"><img... /></a> .... <a href="/blah/whatever/resource.txt">resource.txt"</a>

Обе из работы ссылок, но они - оба то же самое. Таким образом, wget загрузит тот же файл дважды. Как я могу заставить wget проигнорировать первый? Или если у Вас есть лучшее предложение поискового робота, которое работает в Linux (или OpenBSD) затем предлагают это вместо этого

Я попытался использовать список отклонения в качестве так:

wget -r -R index.php\*\&download\* http://url

но это, кажется, ничего на самом деле не делает. Это все еще загрузит дублирующиеся URL

1
задан 19.03.2011, 05:54

1 ответ

можно ли сделать что-то как... просто-R index.php*? поскольку это кажется, что другие ссылки будут все еще хорошо работать?

0
ответ дан 24.11.2019, 01:01

Теги

Похожие вопросы