Я хотел бы скопировать содержание своего блога, который приводится в действие posterous.com. Я хотел бы сохранить все тексты и изображения к локальному диску. Способность просмотреть его офлайн плюс.
Что я уже попробовал:
wget -mk http://myblogurl
Это загружает первую страницу списком сообщений, затем останавливается с"20 redirections exceeded
"сообщение.
Это загружает первую страницу перенаправлением к домашней странице www.posterous.com вместо реального содержания страницы.
Править: URL сайта, который я пытаюсь скопировать, является blog.safabyte.net
Posterous.com действительно поддерживает API, который мог бы помочь Вам. В частности, их API http://posterous.com/api/reading мог бы быть полезным. Можно использовать его для получения XML-файла, содержащего все сообщения и их содержание.
Например, http://posterous.com/api/readposts?hostname=jasonpearce получает все 12 сообщений, которые я сделал к Posterous.
Управляемый для загрузки по крайней мере всего содержимого HTML. Следующий код, кажется, загружает все страницы с блога (использующий Wget 1.11.3 на Windows XP):
wget -mk http://blog.safabyte.net/*
Изображения сообщений все еще не загружаются. Похоже, что это, вероятно, потому что они хранятся на различных доменах.
Содержимое HTML находится на blog.safabyte.com/*, в то время как изображения находятся в http://posterous.com/getfile/files.posterous.com/cheated-by-safabyte/* и files.posterous.com
Это работало на меня:
wget -r -l inf -k -E -p -nc http://blog.safabyte.net/
Это походит на использование -m
включает -N
(добавление метки времени) и posterous не отправляет в последний раз измененные заголовки, которые нарушают wget, так вместо этого я просто использовал -r -l inf
непосредственно.
Используемые опции:
-r
рекурсивный
-l inf
бесконечная глубина
-k
суффиксные файлы HTML с .html
-E
обновите сохраненные файлы со ссылками на локальные файлы
-p
загрузите ресурсы страницы
-nc
не повторно загружайте URL несколько раз
Эта команда все еще не загружает ресурсы с других доменов, что означает, что она не выбирает изображения, поскольку они размещаются на другом CDN.