Что я использую для загрузки всего PDFs с веб-сайта?

Я должен загрузить все файлы PDF, существующие на сайте. Проблема, они не перечислены ни на какой странице, таким образом, мне нужно что-то (программа? платформа?), чтобы проверить сайт и загрузить файлы или по крайней мере получить список файлов. Я попробовал WinHTTrack, но я не мог заставить его работать. DownThemAll для Firefox не проверяет несколько страниц или всех сайтов. Я знаю, что существует решение там, поскольку я, возможно, не возможно был первым человеком, которому подарят эту проблему.Что Вы порекомендуете?

6
задан 07.07.2010, 14:56

4 ответа

10
ответ дан 07.12.2019, 15:33

Google имеет опцию возвратить только файлы определенного типа. Объедините это с опцией "сайта", и у Вас есть свой "поисковый робот".

Пример: http://www.google.com/search?q=site:soliddocuments.com+filetype:pdf

3
ответ дан 07.12.2019, 15:33

Пользуйтесь некоторой webcrawling библиотекой, например, в рубиновом http://www.example-code.com/ruby/spider_begin.asp

2
ответ дан 07.12.2019, 15:33

Если не будет никаких ссылок на файлы PDF, то поисковый робот не поможет, и у Вас в основном только есть два варианта:

  1. Доберитесь список от где-то в другом месте (попросите у веб-мастера сайта списка),
  2. Получите список из списка каталогов WebSite. Хотя, если они отключили эту опцию на своем веб-сервере, Вы не сможете использовать его.
0
ответ дан 07.12.2019, 15:33

Теги

Похожие вопросы