Считайте количество слов в файле PDF

Как я могу получить подсчет слов файла PDF? Я думаю, что большинству файлов PDF, для которых я хочу получить общий подсчет слов, встроили текстовый слой, таким образом, мне не нужен никакой OCR.

Задача возниклась от поиска некоторых научных бумаг известного размера, например, 15 000 слов. Большинство работ разработчиков модификаций опубликовано в формате PDF

67
задан 19.08.2014, 02:44

2 ответа

Быстрый ответ:

pdftotext myfile.pdf - | wc -w

Длинный ответ:

Если на Unix, можно использовать pdftotext:

и затем сделайте подсчет слов в сгенерированном файле. Если на Unix, можно использовать:

wc -w converted-pdf.txt

получить подсчет слов.

Кроме того, см. комментарий замечательного - в основном, можно сделать это за один шаг путем передачи по каналу к stdout вместо этого во временный файл:

pdftotext myfile.pdf - | wc -w
91
ответ дан 07.12.2019, 08:13

Я просто испытал бесплатную программу, Координатную сетку Переводчика. Можно перетащить различные типы файлов (включая PDF), и он открывается браузер с печатаемым сообщением о подсчете слов для каждого документа. Это хорошо работало для меня. (Это конкретно создается для подсчетов слов и - только 435 КБ... то есть, не "большое приложение"). Координатная сетка переводчика не работает над PDF 1.5 или позже.

Кроме того: Вы можете просто Ctrl+A для выбора всего текста в Acrobat Reader и затем вставке копии это в программу как Microsoft Word (который перебрасывается парой слов, рассчитывают на строку состояния внизу экрана).

10
ответ дан 07.12.2019, 08:13

Теги

Похожие вопросы