Сканер канала, который считывает данные

Я не знаю - ли это правильное место для задавания этого вопроса, но...

Мне нужен сканер (сканер подачи бумаги), где или в зависимости от штрихкода, или в зависимости от числа, или некоторого идентификатора на просканированной бумаге, создает файл PDF с именем на основе того идентификатора.

Например: Если бы я отсканировал страницу с номером 12345 в левом верхнем углу страницы, то файл PDF под названием 12345.pdf был бы создан.

Любые предложения вообще значительно ценились бы!

1
задан 28.05.2010, 18:18

3 ответа

Если Вы ищущий сканер документов, который имеет возможность сделать пакетное разделение с помощью штрихкода и переименовать их основа на штрихкоде и зонировал OCR, можно попытаться сделать это со Сканером Fujitsu, связанным его программным обеспечением, сканируете всех про. Другой выбор - Вы, используют сканер Кодака с получением кодака, но программное обеспечение продается отдельно и это довольно дорогостоящий. Если у Вас есть основанный на ИГИЛ сканер, можно попробовать программное обеспечение Quick Scan Pro, чтобы сделать это. Я использовал, сканируют всех про с тех пор 3 года назад к цифровому миллиону страниц, и он хорошо работает.

2
ответ дан 12.12.2019, 09:20

Вы посмотрели на вещи как Readiris или SimpleOCR или другое OCR альтернативы, чтобы видеть, есть ли у какого-либо из них функции, которые Вы после?

Я записал сканер документов с помощью Microsoft Access VBA, который может захватить страницы от сканера подачи документов и произвести файлы PDF, и я в настоящее время переписываю его в Python, но я еще не был побеспокоен достаточно, чтобы выяснить, как встроить некоторый OCR в него к тому, поскольку, кажется, нет многих опций для OCR в Python. Считыватели штрихкода походят на опцию как обычно, можно получить, которые просто дают поток последовательных данных с содержанием штрихкода, который мог затем просто использоваться в качестве названия файла...

Это походит на вид вещи, которая должна быть доступной в способе заплаченных решений OCR, я думаю, что Вы, возможно, должны пройти оценку, какие пакеты поддерживают объемное сканирование документа и основанное на правиле сохранение файла.

1
ответ дан 12.12.2019, 09:20

Это работает в Linux на случай числа в верхней части страницы. Можно играть с параметрами сканирования и параметрами преобразования PDF для получения то, что Вы хотите (сжатие, и т.д.).

#!/bin/bash
# Requires scanimage, tesseract and ImageMagick convert

# Scan the image to temp file. Change command for your scanner
scanimage -d hpaio:/usb/Deskjet_F4100_series?serial=CN7CH4T29D04TJ \
--mode Lineart --resolution 300 --compression None --format=tiff \
> out.tif

# OCR to tmp.txt file
tesseract out.tif tmp

# Extract first line --contains number (thanks Serverfault 66587)
read -r NUMBER < tmp.txt

# Convert image to pdf with the desired name
convert out.tif $NUMBER.pdf

# Clean up
rm out.tif tmp.txt

Если Вы предпочитаете штрихкоды, то Вы могли бы попытаться обработать изображение с gocr. Это считает некоторые типы штрихкодов. Извлечение получающегося числа немного хитро, но может быть сделано с фильтром sed.

1
ответ дан 12.12.2019, 09:20

Теги

Похожие вопросы