Я надеюсь, что могу спросить это здесь.
Я должен извлечь содержание существующего веб-сайта (отвечающий за владельца веб-сайта) к Word (или текст) документы. Для этого мне только нужно содержание от одного DIV с данным идентификатором.
Есть ли какой-либо инструмент для Windows, который может сделать это для меня (идеально рекурсивно)? Я знаю wget и Загрузчик веб-сайта, но оба могут "только" сохранить полный HTML.
Ваш лучший выбор состоял бы в том, чтобы создать Ваш собственный набор инструментальных средств для этого:
wget
рекурсивно загружать файлы HTML, из которых необходимо содержание. Обратите особое внимание на опции -r
указывать рекурсивную загрузку, и -l
указывать глубину рекурсии. wget
выходной простой текст.grep
отфильтровывать все кроме строки (строк), содержащей <DIV>
Вам нужно. Обратите особое внимание на опции -r
указывать рекурсивный поиск, и -e
указывать регулярное выражение. Канал grep
вывод в файл по Вашему выбору. grep
выходной простой текст, если это - питаемый простой текст.Подсказка: может быть более просто использовать grep
многократно отфильтровывать вещи в меньших блоках. Это зависит полностью от того, насколько подобный все различные страницы, и насколько чистый код.
Править: С другой стороны возможно, использование regex не является хорошим способом проанализировать HTML.
Я не думаю, что что-то вроде этого уже существует. Я думаю, что Ваш наилучший вариант состоял бы в том, чтобы кодировать что-то самостоятельно.
BeautifulSoup является... красивой библиотекой Python, которая позволит Вам сделать это в очень минимальном коде. Для большего количества справки я предлагаю, чтобы Вы направились в Переполнение стека