Лучшие вопросы web-crawler - список вопросов для опытных пользователей и мастеров компьютеров

4

ответа

Как “законный” очистка сайта использует ЗАВИХРЕНИЕ? [закрытый]

Недавно я экспериментировал с ЗАВИХРЕНИЕМ, и я нашел, что партия возможна с ним. Я создал маленький сценарий, который проверяет музыкальный сайт, который играет песни онлайн. На способе моего эксперимента я нашел это...

вопрос задан: 23.08.2010

4

ответа

Что я использую для загрузки всего PDFs с веб-сайта?

Я должен загрузить все файлы PDF, существующие на сайте. Проблема, они не перечислены ни на какой странице, таким образом, мне нужно что-то (программа? платформа?), чтобы проверить сайт и загрузить файлы, или в...

вопрос задан: 07.07.2010

3

ответа

Извлечение информации от веб-страницы в данном интервале

У меня есть проблема. Я должен извлечь что-то как 800 записей, и потребовались бы дни, чтобы сделать это вручную. Информация может быть взята путем вставки немногих полей в форму (всегда то же) и затем...

вопрос задан: 27.03.2011

2

ответа

Может хранение 300k файлы в проблемах причины папки?

Я проверяю большой веб-сайт (по 200k страницам) использующий wget (там лучший инструмент btw?). Wget сохранил все файлы к одному каталогу. Раздел является HFS (я думаю), будет он вызывать проблемы если я...

вопрос задан: 30.01.2012

2

ответа

Использование Wget для рекурсивной проверки сайта и образов загрузки

Как Вы даете wget команду рекурсивно проверять веб-сайт и только загружать определенные типы изображений? Я пытался использовать это, чтобы проверить сайт и только загрузить изображения Jpeg: wget - без родителей - wait=10-...

вопрос задан: 29.03.2011

2

ответа

Преобразуйте веб-страницы в один файл для электронной книги

Я хочу загрузить HTML (пример: http://www.brpreiss.com/books/opus6/), и соединяют его с одним HTML или некоторым другим форматом, который я могу использовать на устройстве чтения электронных книг. Сайты с бесплатными книгами не имеют стандартной подкачки

вопрос задан: 02.03.2011

2

ответа

Инструмент к recursivly преобразовывает файл HMTL в PDF?

Есть ли какие-либо инструменты, которые не только преобразовывают файл HTML в PDF, но также и переходят по ссылкам, так, чтобы в конце я получил 1(!) файл PDF, который содержит все файлы HTML?

вопрос задан: 15.02.2010

1

ответ

Командная строка поисковый робот HTTP для Windows? [дубликат]

Возможный Дубликат: Как я могу загрузить весь веб-сайт, у кого-то была бы рекомендация для поискового робота веб-сайта, который может быть вызван и оборудован настройками из командной строки? Это...

вопрос задан: 20.03.2017

1

ответ

Что лучший способ состоит в том, чтобы заархивировать (паук) сайт, который будет удаленным? [дубликат]

Возможный Дубликат: Как я могу загрузить весь веб-сайт Три различных блога, которые я прочитал, недавно объявили, что они собираются быть прекращенными и удаленными из сети. Хотя...

вопрос задан: 20.03.2017

1

ответ

Проверка большого каталога с wget с двумя ссылками, указывающими на то же самое

Я пытаюсь проверить каталог на веб-сайте и в основном загрузить все в нем. Структура достаточно проста (но существует также несколько папок), но существует одна вещь, которая делает дроссель wget...

вопрос задан: 19.03.2011

1

ответ

Текст извлечения от сети

Я ищу легкий сбор, который может проверить сеть, которой я даю его и извлекаю все текстовые элементы из этого. Будет хорошо, если это может сделать: простой текст, высокий звук и заголовок для изображений, раздела заголовка. Весь из...

вопрос задан: 29.09.2010

1

ответ

Google индексировал несвязанную [закрытую] страницу

Google индексировал страницу на моем сайте, который не был связан ни от какой другой страницы, никогда. Никто никогда не помещал ссылку на него, и содержание каталога не было доступно для просмотра. Как это могло произойти? Я думал...

вопрос задан: 29.04.2010

1

ответ

wget: Выключите Вынужденный .html Retreival

При выполнении рекурсивной загрузки я указываю шаблон через-R параметр для wget для отклонения, но если этот файл является файлом HTML, wget загружает файл независимо от того, соответствует ли это...

вопрос задан: 20.04.2010

1

ответ

При поиске поискового робота / загружают программу, которая может использовать существующие cookie браузера и может обработать [закрытый] JavaScript

Я ищу программу пауку веб-сайт* и загружаю содержание на диск. У меня есть следующие требования хотя, которые, кажется, сбивают с толку программы, которые я попробовал: процесс входа в систему сайта...

вопрос задан: 14.12.2009

1

ответ

Я установил и выполнил Web Crawler Heritrix. Это хранило данные в .arc.gz файлах

Если бы Вы использовали Web Crawler Heritrix, я был бы очень признателен за Вашу справку. 3 вопроса: файл дуги, вероятно, содержит исходные коды страниц MANY там. Как я выясняю, который является который? Как делают меня...

вопрос задан: 15.10.2009