Сохраните части веб-сайта как чистый текст

Question

Сохраните части веб-сайта как чистый текст

Я надеюсь, что могу спросить это здесь.

Я должен извлечь содержание существующего веб-сайта (отвечающий за владельца веб-сайта) к Word (или текст) документы. Для этого мне только нужно содержание от одного DIV с данным идентификатором.

Есть ли какой-либо инструмент для Windows, который может сделать это для меня (идеально рекурсивно)? Я знаю wget и Загрузчик веб-сайта, но оба могут "только" сохранить полный HTML.

1

screen-scraping website

задан karel 08.04.2017, 11:48

Ссылка

3 ответа

Я не думаю, что что-то вроде этого уже существует. Я думаю, что Ваш наилучший вариант состоял бы в том, чтобы кодировать что-то самостоятельно.

BeautifulSoup является... красивой библиотекой Python, которая позволит Вам сделать это в очень минимальном коде. Для большего количества справки я предлагаю, чтобы Вы направились в Переполнение стека

0

ответ дан Community 17.12.2019, 00:57

Ссылка

Я ленив. Во время это взяло бы Вас, чтобы исследовать и настроить специальный инструмент, конечно, можно ли просто выделить обязательный текст с мышью, скопировать ли его и вставить ли его в текстовый редактор?

0

ответ дан CarlF 17.12.2019, 00:57

Ссылка

Community · Accepted Answer · 17.12.2019, 00:57

Ваш лучший выбор состоял бы в том, чтобы создать Ваш собственный набор инструментальных средств для этого:

Используйте инструмент такой как wget рекурсивно загружать файлы HTML, из которых необходимо содержание. Обратите особое внимание на опции -r указывать рекурсивную загрузку, и -l указывать глубину рекурсии. wget выходной простой текст.
Используйте инструмент такой как grep отфильтровывать все кроме строки (строк), содержащей <DIV> Вам нужно. Обратите особое внимание на опции -r указывать рекурсивный поиск, и -e указывать регулярное выражение. Канал grepвывод в файл по Вашему выбору. grep выходной простой текст, если это - питаемый простой текст.

Подсказка: может быть более просто использовать grep многократно отфильтровывать вещи в меньших блоках. Это зависит полностью от того, насколько подобный все различные страницы, и насколько чистый код.

Править: С другой стороны возможно, использование regex не является хорошим способом проанализировать HTML.

Сохраните части веб-сайта как чистый текст

3 ответа

Теги

Похожие вопросы