Как скопировать блог, работающий на posterous.com

Я хотел бы скопировать содержание своего блога, который приводится в действие posterous.com. Я хотел бы сохранить все тексты и изображения к локальному диску. Способность просмотреть его офлайн плюс.

Что я уже попробовал:

wget

wget -mk http://myblogurl

Это загружает первую страницу списком сообщений, затем останавливается с"20 redirections exceeded"сообщение.

WinHttpTrack

Это загружает первую страницу перенаправлением к домашней странице www.posterous.com вместо реального содержания страницы.

Править: URL сайта, который я пытаюсь скопировать, является blog.safabyte.net

4
задан 25.01.2010, 00:03

3 ответа

Posterous.com действительно поддерживает API, который мог бы помочь Вам. В частности, их API http://posterous.com/api/reading мог бы быть полезным. Можно использовать его для получения XML-файла, содержащего все сообщения и их содержание.

Например, http://posterous.com/api/readposts?hostname=jasonpearce получает все 12 сообщений, которые я сделал к Posterous.

1
ответ дан 07.12.2019, 21:30

Управляемый для загрузки по крайней мере всего содержимого HTML. Следующий код, кажется, загружает все страницы с блога (использующий Wget 1.11.3 на Windows XP):

wget -mk http://blog.safabyte.net/*

Изображения сообщений все еще не загружаются. Похоже, что это, вероятно, потому что они хранятся на различных доменах.

Содержимое HTML находится на blog.safabyte.com/*, в то время как изображения находятся в http://posterous.com/getfile/files.posterous.com/cheated-by-safabyte/* и files.posterous.com

0
ответ дан 07.12.2019, 21:30

Это работало на меня:

wget -r -l inf -k -E -p -nc http://blog.safabyte.net/

Это походит на использование -m включает -N (добавление метки времени) и posterous не отправляет в последний раз измененные заголовки, которые нарушают wget, так вместо этого я просто использовал -r -l inf непосредственно.

Используемые опции:

-r рекурсивный
-l inf бесконечная глубина
-k суффиксные файлы HTML с .html
-E обновите сохраненные файлы со ссылками на локальные файлы
-p загрузите ресурсы страницы
-nc не повторно загружайте URL несколько раз

Эта команда все еще не загружает ресурсы с других доменов, что означает, что она не выбирает изображения, поскольку они размещаются на другом CDN.

1
ответ дан 07.12.2019, 21:30

Теги

Похожие вопросы