Командная строка OCR в Windows 7

Каковы некоторые утилиты OCR командной строки, которые будут работать в 64-разрядном Windows 7?

4
задан 07.06.2010, 03:18

3 ответа

Я думаю, что Tesseract является лучшим (бесплатным) основанным на командной строке программным обеспечением OCR. К сожалению, кажется, нет Windows 7 64-разрядного двоичного файла, доступного, таким образом, необходимо было бы скомпилировать его сами; вот инструкции для того, чтобы сделать так (взятый из комментария к странице с часто задаваемыми вопросами Tesseract):

  1. Загрузите tesseract 2.04. Распакуйте его. В этом примере я распаковал к C:\projects\tesseract-2.04. Windows 7 все еще не понимает .tar.gz из поля. Моя рекомендация состоит в том, чтобы получить копию С 7 zip.

  2. Загрузите свои необходимые файлы языка. Мне нужны немецкий и английский язык. Я распаковываю их к tessdata подкаталогу C:\projects\tesseract-2.04\tessdata.

  3. Установка libtiff. В моей системе (на 64 бита) предложенный каталог установки является C:\Program Files (x86)\GnuWin32?. Под этим каталогом набор подкаталогов, содержащих файлы, мы должны будем скомпилировать tesseract с поддержкой tiff, а именно, включать, мусорное ведро и lib.

  4. Добавить C:\Program Files (x86)\GnuWin32? \bin к Вашей переменной окружения PATH так, чтобы вывод tesseract.exe мог найти libtiff dll. Перезапуск.

  5. Откройте vc решение (tesseract.sln)

  6. Измените конфигурацию решения на режим "Release". Обратите внимание, что, если Вы позже возвращаетесь к Режиму отладки, необходимо будет настроить все следующее снова...

  7. В решении проводник щелкают правой кнопкой по узлу решения (Решение 'tesseract') и нажимают "Properties". Изменитесь на "Свойства Конфигурации" и выберите конфигурацию "Выпуска" из выпадающего наверху окна. Перейдите к: Инструменты-> Опции-> Проекты и Решения-> VC ++ Каталоги Здесь мы будем добавлять полные пути для lib подкаталогов и включать от установки libtiff так, чтобы VC мог найти необходимый заголовок (.h) и статическую библиотеку (.lib) файлы. В этом примере они: $ (ProgramFiles?) \GnuWin32? $ \include (ProgramFiles?) \GnuWin32? \lib, поскольку я использую переменную среды. Я, возможно, однако просто записал им как C:\Program Files (x86)\GnuWin32? \include. Измените "Выставочные Каталоги Для" выпадающего для "Включения файлов". Добавьте следующее: $ (ProgramFiles?) \GnuWin32? \include Теперь изменяют "Выставочные Каталоги Для" выпадающего в "Файлы библиотеки". Добавьте следующее: $ (ProgramFiles?) \GnuWin32? \lib

  8. Теперь откройте окно свойств проекта для tesseract проекта (не решение). В решении проводник щелкают правой кнопкой по tesseract проекту и нажимают свойства. Переместитесь по ужасающему списку опций к Свойствам Конфигурации-> C/C++-> Препроцессор и добавьте HAVE_LIBTIFF к списку Определений Препроцессора. Это заставляет набор #includes быть включенным в коде.

  9. Вы также хотите добавить "Дополнительную зависимость". перейдите к разделу "Additional dependencies" для свойств проекта и добавьте libtiff.lib.

  10. Создайте решение. Смотрите ошибочный список. Если Вы получаете набор ошибок LNK2109, который означает, что компоновщик не может найти что-то tesseract ссылками. Вы пропускаете ссылку на один из путей от libtiff. Если Вы получаете ошибку при упоминании mt.exe, Вы возможно встретились с ошибкой в sdk. Просто попытайтесь создать снова. см. http://connect.microsoft.com/VisualStudio/feedback/ViewFeedback.aspx?FeedbackID=106634 для большего количества информации.

Если/когда решение создаст успешно, то у Вас будет файл tesseract.exe в том же каталоге как tesseract файл решения. перетащите Вас многостраничный сжатый tiff сюда и попытайтесь выполнить tesseract., например, если Ваш tiff называют in.tif, и Вы хотите к синтезируемому тексту к out.txt, и язык документов является немецким затем, Ваша командная строка была бы похожа:

tesseract.exe in.tif-l deu выходной файл будет иметь .txt добавленным к нему tesseract. Если Вы просто переводите английский текст затем, можно бросить-l опцию, поскольку tesseract принимает "инженера", если Вы ничего не указываете. Если Ваш tif файл будет иметь расширение файла .tiff, то tesseract будет гадить сам таким образом:

C:\projects\tesseract-2.04>tesseract.exe in.tiff-l deu Tesseract Открытый исходный код Механизм OCR name_to_image_type:Error:Unrecognized отображают ИЗОБРАЖЕНИЕ type:in.tiff:: read_header:Error:Can't читают это изображение type:in.tiff tesseract.exe:Error:Read файла failed:in.tiff

Надо надеяться (скрещенные пальцы, heh) Вы теперь получили файл out.txt OCR'd, находящийся в C:\projects\tesseract-2.04.

4
ответ дан 07.12.2019, 20:27

JOCR является единственным, который я знаю, который может работать над окнами и является базирующейся командной строкой. Просмотрите их веб-страницу здесь

1
ответ дан 07.12.2019, 20:27

Существует установщик для окон 7 для tesseract. Я только что установил его и заставил его делать OCR на маленьком изображении. Результат был ужасен, но я надеюсь с некоторой настройкой, я могу улучшить результаты.

0
ответ дан 07.12.2019, 20:27

Теги

Похожие вопросы