Текст извлечения от сети

Я ищу легкий сбор, который может проверить сеть, которой я даю его и извлекаю все текстовые элементы из этого. Будет хорошо, если это может сделать: простой текст, высокий звук и заголовок для изображений, раздела заголовка. Весь из отдельно, если это возможно. Вывод должен быть так или иначе доступными для поиска или текстовыми файлами (xml) для каждой страницы, которую он проверил. Мне нужны они текст для передачи их переводчикам.

0
задан 29.09.2010, 12:24

1 ответ

Старый добрый Lynx может предоставить Вам большинство функций, которые Вы запросили. Попробовать lynx -dump http://superuser.com/, например.

Можно также использовать wget для того, чтобы рекурсивно проверить сайты Вы нуждаетесь и затем обрабатываете файлы с различными доступными преобразователями, такими как htmltidy.

2
ответ дан 24.11.2019, 06:49

Теги

Похожие вопросы