Я должен загрузить все файлы PDF, существующие на сайте. Проблема, они не перечислены ни на какой странице, таким образом, мне нужно что-то (программа? платформа?), чтобы проверить сайт и загрузить файлы или по крайней мере получить список файлов. Я попробовал WinHTTrack, но я не мог заставить его работать. DownThemAll для Firefox не проверяет несколько страниц или всех сайтов. Я знаю, что существует решение там, поскольку я, возможно, не возможно был первым человеком, которому подарят эту проблему.Что Вы порекомендуете?
Из http://www.go2linux.org/tips-and-tricks-of-wget-to-download-files:
wget -r -A pdf http://www.site.com
Google имеет опцию возвратить только файлы определенного типа. Объедините это с опцией "сайта", и у Вас есть свой "поисковый робот".
Пример: http://www.google.com/search?q=site:soliddocuments.com+filetype:pdf
Пользуйтесь некоторой webcrawling библиотекой, например, в рубиновом http://www.example-code.com/ruby/spider_begin.asp
Если не будет никаких ссылок на файлы PDF, то поисковый робот не поможет, и у Вас в основном только есть два варианта: