Я установил и выполнил Web Crawler Heritrix. Это хранило данные в .arc.gz файлах

Question

Я установил и выполнил Web Crawler Heritrix. Это хранило данные в .arc.gz файлах

Если бы Вы использовали Web Crawler Heritrix, я был бы очень признателен за Вашу справку.

3 вопроса:

Файл дуги, вероятно, содержит исходные коды страниц MANY там. Как я выясняю, который является который?
Как я интерпретирую .arc.gz файлы? Я открыл их в VIM и понял, что был HTML-код + спам (который я не могу даже проанализировать использование Python SGMLParser из-за спама).
Рекомендуется сжаться? (.gz)

В основном я понятия не имею, что.ARC файлы и что я могу сделать с ними. Я привык использовать URLLIB2, чтобы загрузить и проанализировать HTML вручную.

0

web-crawler parsing

задан Alex 15.10.2009, 01:31

Ссылка

1 ответ

Andrew Johnson · Accepted Answer · 24.11.2019, 04:44

Ее ссылка для загрузки ArcReader и объяснения: http://crawler.archive.org/articles/developer_manual/arcs.html.

Я Погугленный для чтения файлов дуги и это было первой ссылкой.

Сначала необходимо разархивировать файлы (они - gzipped, следовательно .gz расширение.). Затем можно считать файл ARC.

Я установил и выполнил Web Crawler Heritrix. Это хранило данные в .arc.gz файлах

1 ответ

Теги

Похожие вопросы