Я ищу способ "с одним щелчком" взять ЛЮБОЙ PDF и преобразовать его в простой текст. Идеально на OSX или Linux.
Идеально, решение включало бы функциональность OCR, но этому нужно не обязательно.
Высший приоритет имеет что-то, что может взять ЛЮБОЙ файл БЕЗ конфигурации.
Существует xpdf, который включает pdftotext
двоичный файл.
Pdftotext преобразовывает файлы переносимого формата документа (PDF) в простой текст.
На Linux существует доступный установщик. Кажется, что это также входит poppler-utils
пакет. На OS X Вы могли установить его с помощью Домашнего пива (установка что сначала) и затем использовать
brew install homebrew/x11/xpdf
который загрузит исходные файлы и скомпилирует его для OS X. После этого просто используйте его как:
pdftotext your_pdf_file.pdf
который генерирует файл простого текста. Существует несколько опций также, проверяют man pdftotext
для получения дополнительной информации.
Альтернатива является poppler в OSX:
brew install poppler
в Debian и друзьях
apt-get install poppler-utils