Возможный дубликат:
Как извлечь текст с OCR от PDF на Linux?
У меня есть несколько документов на английском и иврите, в котором я просканировал и преобразовал в формат PDF.
Есть ли некоторая свободная или дешевая утилита, которая может обработать просканированный PDF и сделать OCR, по крайней мере, на английском языке, предпочтительно также на иврите?
Спасибо!
Я нашел список бесплатного программного обеспечения OCR для Windows.
Однако для этих программ нужен вход изображения, не вход PDF. Для этого попробуйте преобразователь PDF-to-JPG.
Я нашел интересную идею, которая позволяет Google сделать всю работу OCR'ing файлы PDF для Вас.
Лично, я использовал бы Ghostview для преобразования их в изображение, затем Tesseract для преобразования их для отправки текстовых сообщений. Это - полностью бесплатное, кросс-платформенное решение с открытым исходным кодом, с которым у меня были очень хорошие результаты при попытке преобразовать простой текст. Я не использую его для составных документов с таблицами и таким, но для простого текста Вы не можете победить цену.