У меня есть PDF, который содержит изображение сканирования документа. Я хочу сохранить содержание этого PDF как изображение так, чтобы я мог затем выполнить его через программу OCR, которая только принимает .jpg, .png, и файлы типа .gif.
Как я сохраняю/преобразовываю этот PDF к одному из тех форматов изображения?
Править: Одним путем я нашел, чтобы сделать, это должно нажать на каждую страницу. Скопируйте в буфер обмена. Вставка на Paint.net и затем сохраняет. Однако это является громоздким, поскольку кажется, что можно только выбрать одну страницу за один раз в Acrobat Reader.
Обратите пристальное внимание на ответ pooryorick, в котором он указывает, как ответ sleske является на самом деле намного лучшим ответом для этой конкретной проблемы.
Используйте GhostScript. Эта команда работает на меня:
gs -dBATCH -dNOPAUSE -sDEVICE=png16m -dGraphicsAlphaBits=4 -dTextAlphaBits=4 -r150 -sOutputFile=output%d.png input.pdf
Существует несколько png псевдоустройств, дифференцирующихся на глубине цвета: pngmono, pnggray, png16, png256, png16m, и pngalpha. Выберите, какой бы ни каждый подходит Вам лучшее.
Можно также использовать jpeg, но если у Вас нет проблемы дискового пространства, Вы хотите столь высокое качество, как можно справиться для OCR, и это не jpeg.
GhostScript больше не имеет поддержку gif, но я не могу вообразить, почему Вам было бы нужно это, что с png256 поддерживает.
Установка Imagemagick. Откройте cmd окно или терминал:
convert myfile.pdf myfile.jpg
Вывод будет 1 jpg файлом для каждой страницы в Вашем PDF, test-0.jpg, test-1.jpg, и т.д.
PDFill Инструменты PDF является, вероятно, easist способом преобразовать Ваш PDFs в изображения в Windows. Это позволит Вам экспортировать все страницы в PDF для разделения изображений в одном выстреле. Это также имеет много в наличии других функций бесплатно, которые только доступны в других средствах просмотра PDF, если Вы покупаете рекламу или "Pro" версию.
Используйте кнопку "Convert PDF to Images" (кнопка № 10) в снимке экрана ниже.
Если необходимо связать изображения в одно очень высокое изображение, таким образом, только необходимо подать один файл к программе OCR, можно использовать IrfanView
Также PDF (Свободное) Средство просмотра Xchange сделает экспорт в файл. Файл → Экспорт → Экспорт в изображение.
Не только, что, но и я думаю, что это - лучшее свободное средство просмотра PDF для Windows, и это имеет некоторые хорошие возможности разметки. У меня есть лицензия на Adobe Acrobat, и я все еще предпочитаю это, если я не делаю интенсивное редактирование, которое редко является.
Если файл составляет меньше чем 5 МБ, и Вы не волнуетесь по поводу конфиденциальности/конфиденциальности, то удобный онлайн-сервис по http://www.go2convert.com/, который может сделать много графических преобразований (включая PDF к jpeg)
Если изображение превышает размер Вас экран, можно использовать Получение FastStone (функция "Capture Scrolling Window") и сохранить образ как JPEG.
Существует также pdfimages
от инструментов Xpdf (доступный от сайта XpdfReader). Это не преобразует целую страницу PDF в изображение, скорее это извлечет встроенные изображения из PDF.
Это полезно, если PDF содержит текст и изображения, и Вы хотите только изображения. Кроме того, это извлечет изображения в их исходном формате, таким образом, никакая потеря качества не будет включена (в отличие от программ, которые представляют целую страницу и затем преобразовывают ее в, например, JPEG). В зависимости от Ваших потребностей это могло бы быть полезно.
Простое использование:
pdfimages -j -list mydocument.pdf mydocument-images
Это считает входной файл mydocument.pdf
, извлеките все изображения и запишите им в отдельные названные файлы mydocument-images-0000.jpg
, mydocument-images-0001.jpg
и т.д.
Опция -j
заставляет его записать встроенные сжатые до JPEG изображения как файлы JPEG, не как PBM/PGM/PPM файлы (которые являются несжатыми и огромными). Обратите внимание, что изображения могут все еще быть записаны как PBM/PGM/PPM файлы, если это - то, как они были сохранены во входном файле PDF.