Извлечение текста от.PDF просканировало [закрытую] книгу

У меня есть просканированный книга в формате PDF, но качество довольно плохо:

enter image description here

(Язык является румынским, и это - медицинская книга по физиологии, в случае, если Вы задавались вопросом),

Я хочу извлечь текст из книги (1 500 страниц), но сохранять изображения путем они. Я действительно не думаю, что у меня есть любой шанс найти решение, таким образом, я, конечно, куплю книгу.

На ничтожном шансе, там какое-либо мощное программное обеспечение, которое может сделать то, что я ищу? Это также должно распознать румынский язык.

6
задан 08.07.2014, 10:33

7 ответов

Я купил книгу!

1
ответ дан 07.12.2019, 15:44

Я ранее отправил детализацию ответа, как использовать Клинообразный знак (программное обеспечение с открытым исходным кодом), чтобы сделать OCR на файлах PDF и как создать файл PDF с распознанным текстом в слое скрытого текста "позади" исходного изображения. Насколько я знаю, Клинообразный знак на самом деле поддерживает румынский язык также.

В то время как конкретное решение было для Linux, Клинообразный знак доступен также для Windows.

6
ответ дан 07.12.2019, 15:44

Adobe Acrobat Professional может сделать это. Я не уверен, существует ли румынская версия...

2
ответ дан 07.12.2019, 15:44

ABBYY Прекрасный Читатель является очень сильным программным обеспечением OCR. Это имеет дело с очень сложными макетами и поддерживает много форматов (включая PDF). Румынский язык поддерживается со словарем, т.е. программное обеспечение использует словарь для приоритизации гипотезы во время распознавания. (здесь).

В любом случае луг OCR, научная литература, с имеет плохое качество сканирования, является трудной задачей. Будьте готовы провести много времени для помощи программному обеспечению с проверкой результатов, и layot фиксирует. На Вашем сканировании я вижу много очень низкокачественного текста :(. Я не думаю, что любое программное обеспечение OCR могло обычно работать с ним.

2
ответ дан 07.12.2019, 15:44

OmniPage Recognita является безусловно лучшей программой OCR, которую я когда-либо использовал. Я уверен, что это распознает румынский текст; это не имело никакой проблемы с моим собственным венгром. Можно загрузить пробную версию со ссылки и использовать ее для преобразования книги. Полная версия, к сожалению, довольно дорога (499,99$)...

1
ответ дан 07.12.2019, 15:44

Ну, для распознаваний текста каждый обычно ищет OCR (оптическое распознавание символов) программы. Существует разнообразие их вокруг, таким образом, простой поиск Google будет делать больше хорошего, чем я здесь.

Я не понял, что последняя часть "распознает румынский язык" - Вы подразумеваете, что это должно распознать румынский язык, или быть локализованным (переведенное) в румынский язык? В случае первого я полагаю, что не будет никакой проблемы; если второе имеет место, то я не так уверен.

Кроме того, если это не книга Ваших локальных соотечественников, затем существует шанс, это уже переводится на английском языке... поэтому, если у Вас есть он в PDF на румынском языке, попытайтесь искать английскую версию... затем только проблема, это - Вы, знают... недопустимый (иногда, у каждого нет выбора хотя).

0
ответ дан 07.12.2019, 15:44
  • 1
    я имею в виду это, должен распознать румынские Символы Шрифта/Румына. Кто-то отредактировал мое сообщение.. действительно не знайте почему. :| – ChristianM 02.11.2009, 11:35

Попробуйте PDFCubed.com. Это - сервис OCR онлайн, который делает создание распознаваемого текста PDF легкий. Отсканированные документы могут быть отправлены через сеть, электронное письмо или Dropbox.

-1
ответ дан 07.12.2019, 15:44

Теги

Похожие вопросы