Если бы Вы использовали Web Crawler Heritrix, я был бы очень признателен за Вашу справку.
3 вопроса:
В основном я понятия не имею, что.ARC файлы и что я могу сделать с ними. Я привык использовать URLLIB2, чтобы загрузить и проанализировать HTML вручную.
Ее ссылка для загрузки ArcReader и объяснения: http://crawler.archive.org/articles/developer_manual/arcs.html.
Я Погугленный для чтения файлов дуги и это было первой ссылкой.
Сначала необходимо разархивировать файлы (они - gzipped, следовательно .gz расширение.). Затем можно считать файл ARC.