Как сделать OCR на документе в формате PDF? [дубликат]

Возможный дубликат:
Как извлечь текст с OCR от PDF на Linux?

У меня есть несколько документов на английском и иврите, в котором я просканировал и преобразовал в формат PDF.

Есть ли некоторая свободная или дешевая утилита, которая может обработать просканированный PDF и сделать OCR, по крайней мере, на английском языке, предпочтительно также на иврите?

Спасибо!

6
задан 20.03.2017, 12:17

3 ответа

Я нашел список бесплатного программного обеспечения OCR для Windows.

  1. FreeOCR
  2. Tesseract
  3. Веб-интерфейс WeOcr Tesseract
  4. GOCR
  5. Windows GUI для GOCR
  6. Рабочий стол OCR
  7. Простой OCR
  8. TopOCR

Однако для этих программ нужен вход изображения, не вход PDF. Для этого попробуйте преобразователь PDF-to-JPG.

1
ответ дан 07.12.2019, 16:31

Я нашел интересную идею, которая позволяет Google сделать всю работу OCR'ing файлы PDF для Вас.

1
ответ дан 07.12.2019, 16:31

Лично, я использовал бы Ghostview для преобразования их в изображение, затем Tesseract для преобразования их для отправки текстовых сообщений. Это - полностью бесплатное, кросс-платформенное решение с открытым исходным кодом, с которым у меня были очень хорошие результаты при попытке преобразовать простой текст. Я не использую его для составных документов с таблицами и таким, но для простого текста Вы не можете победить цену.

0
ответ дан 07.12.2019, 16:31

Теги

Похожие вопросы