Как я могу преобразовать отсканированные изображения как PDF в доступный для поиска файл PDF? [закрытый]

У меня есть PDF просканированной книги.

Я ищу бесплатное программное обеспечение, которое выполнит OCR и затем предоставит возможность сохранять его как PDF или документ снова.

Есть ли один?

19
задан 16.08.2011, 18:14

8 ответов

Вы могли загрузить 30-дневный суд над Adobe Acrobat Pro и использовать 'функцию' Распознавания текста OCR ('Документ>, Распознавание текста OCR> Распознает текст Используя OCR...'). В диалоговом окне настроек выберите 'Searchable Image' в качестве выходного стиля. Это сохранит изображение страницы, но встроит текст OCR'ed, таким образом, документ будет доступен для поиска и позволит тексту быть выбранным, скопированным и вставленным.

После выполнения OCR необходимо будет подтвердить или исправить слова, что OCR не уверен в использовании, 'Находят Подозрительные функции' OCR.

5
ответ дан 07.12.2019, 10:21

Следующие продукты были найдены перечисленными в Интернете, но я не использовал их.

OCR онлайн

Терминал OCR

Терминал OCR является сервисом OCR онлайн, который выполняет Оптическое распознавание символов (OCR) на Ваших отсканированных изображениях и файлах PDF и представляет их в доступном для редактирования и тексте доступные для поиска документы.

Свободный OCR

Free-OCR.com является бесплатным онлайн инструментом OCR (Optical Character Recognition). Можно использовать это для выполнения OCR на любом изображении, которое Вы предоставляете.
Этот сервис является бесплатным, никакая необходимая регистрация. Нам также не нужен Ваш адрес электронной почты.
Просто загрузите свои файлы изображений. Свободный OCR берет или JPG, GIF, TIFF BMP или PDF (только первая страница). Единственное ограничение - то, что изображения не должны быть больше, чем 2 МБ, нет шире или выше, чем 5 000 пикселей и существует предел 10 загрузок изображения в час.

Сервер Распознавания маэстро является коммерческим, но имеет попытку онлайн - это демонстрация.

Бесплатное программное обеспечение

FreeOCR - для изображений только.

FreeOCR является сканированием и программой OCR включая Tesseract свободный механизм ocr, также известный как GUI Tesseract. Это включает установщик Windows, и Это очень просто в использовании и поддерживает многостраничный tiff, документы факса, а также большинство типов изображения включая сжатый Tiff, который механизм Tesseract самостоятельно не может считать.It теперь, имеют Twain, сканирующего.

pdfsandwich - PDF-> преобразователь PDF.

pdfsandwich является инструментом командной строки для просканированных книг или журналов OCR. Это может распознать макет страницы даже для многостолбцового текста.

По существу pdfsandwich является сценарием обертки, который называет следующие двоичные файлы: преобразуйте, клинообразный знак, gs, и hocr2pdf. Это, как известно, работает на системах Unix и было протестировано на Linux и MacOS X. Это поддерживает параллельную обработку в многопроцессорных системах.

4
ответ дан 07.12.2019, 10:21

Клинообразный знак + hocr2pdf + Ghostscript: решение с открытым исходным кодом DIY.

Я отправил ответ, обрисовывающий в общих чертах решение, включающее версию теперь Клиновидной Системы оптического распознавания с открытым исходным кодом и hocr2pdf вместе с Ghostscript для соединения страниц PDF.

Это было специально для Linux, но можно получить Cuneiform и Ghostscript для Windows, также. Я не уверен в hocr2pdf или эквиваленте, все же.

2
ответ дан 07.12.2019, 10:21

Вот очень странный метод, который включает разрешение индексу Google и OCR это для Вас на веб-сайте, затем получая его.

1
ответ дан 07.12.2019, 10:21
  • 1
    да, я - что также... странный Действительно :) Я закончи тем, что делаю его... –  04.10.2009, 08:19

Установка Imagemagick. Откройте cmd окно или терминал:

convert myfile.pdf myfile-%02d.jpg

Вывод будет 1 jpg файлом для каждой страницы в Вашем PDF, myfile-00.jpg, myfile-01.jpg, и т.д.

Передайте каждое изображение хотя программа ocr. Я не имею большого опыта с этим, но там, кажется, большой выбор.

Преобразуйте каждую страницу текста назад в PDF. Вы могли сделать это снова с imagemagick, но также существуют другие пути:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
0
ответ дан 07.12.2019, 10:21

Ваш запрос, кажется, сложное решение проблемы, хотя я не могу понять проблему правильно. Во всяком случае:

Почему бы не получить устройство записи PDF, которое позволит Вам вводить данные непосредственно на странице PDF?

0
ответ дан 07.12.2019, 10:21

Если у Вас есть Google Account затем, Google Docs теперь включает функциональность, чтобы загрузить файл PDF и выполнить OCR на нем.

Я попробовал его сам, и это делает справедливый удар в по общему признанию хорошо отформатированном PDF.

Форматирование в значительной степени уничтожается, но текст, кажется, выживает.

4
ответ дан 07.12.2019, 10:21

Попробуйте PDFCubed.com Ничто для установки, это все сделано онлайн. Можно отправить документы, которые будут обработаны через сеть, электронное письмо или Dropbox. Просканированный PDFs и TIFs преобразовываются в распознаваемый текст pdfs и затем могут быть получены через сеть, электронное письмо или Dropbox.

0
ответ дан 07.12.2019, 10:21

Теги

Похожие вопросы