Как к изображениям замен текста в PDFs с форматированным текстом с помощью OCR

Я получаю много PDFs от других людей, состоящих из отсканированных старых документов. К сожалению, иногда текст на сканированиях, хотя четкий, выглядит зернистым и тверд читать.

Что я смог сделать, до сих пор должен извлечь текст, с помощью OCR, в документ слова. Однако, так как эти старые документы часто имеют иллюстрации и сложное форматирование, что я действительно хотел бы смочь сделать, должен просто удалить старый зернистый текст и занять место, это с компьютером генерировало шрифты. Другими словами, я хотел бы сохранить PDF и форматирование его страниц до самой большой степени, возможной при "очистке" текста путем замены его, скажем, Times New Roman.

Я онлайн искал несколько дней для простого, automatable способа выполнить такую очистку, и я ничего не поднял до сих пор. Определенно кажется, что должен быть способ сделать это, не кажется, что усложнил, но возможно я пропускаю некоторые аспекты этой проблемы, которые помещают его за пределами того, что является в настоящее время выполнимым с OCR.

Какие-либо предложения?

4
задан 23.09.2014, 03:00

1 ответ

Зависит от Вашего точного обстоятельства (используемые шрифты, схемы, сколько очистки необходимо...), но у меня были хорошие результаты с FineReader Professional Edition... Сканирует наиболее распространенные форматы изображения (сканирование, tiff, jpg и т.д.) и может преобразовать в HTML или слово среди других...

Это не свободно, но Вы не сказали поиск этого. У меня был набор материала OCR, я делал некоторое время назад, и он сделал захватывающее задание OCR с низким коэффициентом ошибок. <<<---я не знаю о сегодня, но 5 лет назад, когда я сначала получил это, я попробовал несколько других пакетов OCR, и точность распознавания текста была обычно 'плачевна'..., хотя они будут рекламировать ее (правильно) как 90-95-98%. Проблема, даже в 99%, Вы смотрите на несколько слов для исправления/разбивания на страницы текста. Это было слишком высоко для моего уровня терпимости.

Я fetl, необработанный розничный тариф был немного дорог (но мне обычно нравится свободный, купленный SW лучше стоить того; я бегло говорю на "gninux-ese"), но у них есть предложения (или сделал, когда я купил), обновления из другого программного обеспечения приблизительно для 50% их розничной цены, которая, также об их цене на обновления. Я действительно покупал его, тем не менее, когда это было приблизительно в версии 6 или 7, когда у меня были более новые проекты, которые потребовали подобный - я купил обновление, затем, текущая версия. В последний раз я купил, был 9.0.

Моя единственная [неясная] говядина w/it была этим не распознавание Unicode и не создание unicode файлы. Они действительно имеют 186 (читающий из веб-сайта) языки в настоящее время поддерживаемый (AFAIK, все языки включены в профессора Ver.), но это сохранило файлы в закодированных регионом наборах символов или 'кодовых страницах' (ibm-cp850, мс-cp1250, iso-8859-1, и т.д....) вместо UTF-8 - который был моим предпочтением. Я сканировал файлы смешанного алфавита, которые я буду в конечном счете редактировать в UTF-8.

Их программное обеспечение делает отличную работу без обучения. Это может быть обучено распознать определенные для пользователя буквы, хотя я не нашел, что процесс, чтобы быть столь же удобным, как мне понравится (но это действительно не была потребность в большей части того, что я сделал (или делают).

С версией я имею (9), она имеет способность прочитать вещи снимка экрана также, который иногда удобен для программ, которые не включают скопировать/вставить.

У них, кажется, есть try-before-you-buy опция, теперь, также: веб-сайт: finereader.abbyy.com (профессионал подталкивают http://finereader.abbyy.com/professional).

0
ответ дан 07.12.2019, 21:27

Теги

Похожие вопросы