Я пытаюсь проверить каталог на веб-сайте и в основном загрузить все в нем. Структура достаточно проста (но существует также несколько папок), но существует одна вещь, которая составляет дроссель wget. Источник выглядит примерно так:
<a href="index.php?path=/blah/whatever&download=resource.txt"><img... /></a> .... <a href="/blah/whatever/resource.txt">resource.txt"</a>
Обе из работы ссылок, но они - оба то же самое. Таким образом, wget загрузит тот же файл дважды. Как я могу заставить wget проигнорировать первый? Или если у Вас есть лучшее предложение поискового робота, которое работает в Linux (или OpenBSD) затем предлагают это вместо этого
Я попытался использовать список отклонения в качестве так:
wget -r -R index.php\*\&download\* http://url
но это, кажется, ничего на самом деле не делает. Это все еще загрузит дублирующиеся URL
можно ли сделать что-то как... просто-R index.php*? поскольку это кажется, что другие ссылки будут все еще хорошо работать?