Я установил и выполнил Web Crawler Heritrix. Это хранило данные в .arc.gz файлах

Если бы Вы использовали Web Crawler Heritrix, я был бы очень признателен за Вашу справку.

3 вопроса:

  1. Файл дуги, вероятно, содержит исходные коды страниц MANY там. Как я выясняю, который является который?
  2. Как я интерпретирую .arc.gz файлы? Я открыл их в VIM и понял, что был HTML-код + спам (который я не могу даже проанализировать использование Python SGMLParser из-за спама).
  3. Рекомендуется сжаться? (.gz)

В основном я понятия не имею, что.ARC файлы и что я могу сделать с ними. Я привык использовать URLLIB2, чтобы загрузить и проанализировать HTML вручную.

0
задан 15.10.2009, 01:31

1 ответ

Ее ссылка для загрузки ArcReader и объяснения: http://crawler.archive.org/articles/developer_manual/arcs.html.

Я Погугленный для чтения файлов дуги и это было первой ссылкой.

Сначала необходимо разархивировать файлы (они - gzipped, следовательно .gz расширение.). Затем можно считать файл ARC.

3
ответ дан 24.11.2019, 04:44

Теги

Похожие вопросы