Каковы некоторые утилиты OCR командной строки, которые будут работать в 64-разрядном Windows 7?
Я думаю, что Tesseract является лучшим (бесплатным) основанным на командной строке программным обеспечением OCR. К сожалению, кажется, нет Windows 7 64-разрядного двоичного файла, доступного, таким образом, необходимо было бы скомпилировать его сами; вот инструкции для того, чтобы сделать так (взятый из комментария к странице с часто задаваемыми вопросами Tesseract):
Загрузите tesseract 2.04. Распакуйте его. В этом примере я распаковал к C:\projects\tesseract-2.04. Windows 7 все еще не понимает .tar.gz из поля. Моя рекомендация состоит в том, чтобы получить копию С 7 zip.
Загрузите свои необходимые файлы языка. Мне нужны немецкий и английский язык. Я распаковываю их к tessdata подкаталогу C:\projects\tesseract-2.04\tessdata.
Установка libtiff. В моей системе (на 64 бита) предложенный каталог установки является C:\Program Files (x86)\GnuWin32?. Под этим каталогом набор подкаталогов, содержащих файлы, мы должны будем скомпилировать tesseract с поддержкой tiff, а именно, включать, мусорное ведро и lib.
Добавить C:\Program Files (x86)\GnuWin32? \bin к Вашей переменной окружения PATH так, чтобы вывод tesseract.exe мог найти libtiff dll. Перезапуск.
Откройте vc решение (tesseract.sln)
Измените конфигурацию решения на режим "Release". Обратите внимание, что, если Вы позже возвращаетесь к Режиму отладки, необходимо будет настроить все следующее снова...
В решении проводник щелкают правой кнопкой по узлу решения (Решение 'tesseract') и нажимают "Properties". Изменитесь на "Свойства Конфигурации" и выберите конфигурацию "Выпуска" из выпадающего наверху окна. Перейдите к: Инструменты-> Опции-> Проекты и Решения-> VC ++ Каталоги Здесь мы будем добавлять полные пути для lib подкаталогов и включать от установки libtiff так, чтобы VC мог найти необходимый заголовок (.h) и статическую библиотеку (.lib) файлы. В этом примере они: $ (ProgramFiles?) \GnuWin32? $ \include (ProgramFiles?) \GnuWin32? \lib, поскольку я использую переменную среды. Я, возможно, однако просто записал им как C:\Program Files (x86)\GnuWin32? \include. Измените "Выставочные Каталоги Для" выпадающего для "Включения файлов". Добавьте следующее: $ (ProgramFiles?) \GnuWin32? \include Теперь изменяют "Выставочные Каталоги Для" выпадающего в "Файлы библиотеки". Добавьте следующее: $ (ProgramFiles?) \GnuWin32? \lib
Теперь откройте окно свойств проекта для tesseract проекта (не решение). В решении проводник щелкают правой кнопкой по tesseract проекту и нажимают свойства. Переместитесь по ужасающему списку опций к Свойствам Конфигурации-> C/C++-> Препроцессор и добавьте HAVE_LIBTIFF к списку Определений Препроцессора. Это заставляет набор #includes быть включенным в коде.
Вы также хотите добавить "Дополнительную зависимость". перейдите к разделу "Additional dependencies" для свойств проекта и добавьте libtiff.lib.
Создайте решение. Смотрите ошибочный список. Если Вы получаете набор ошибок LNK2109, который означает, что компоновщик не может найти что-то tesseract ссылками. Вы пропускаете ссылку на один из путей от libtiff. Если Вы получаете ошибку при упоминании mt.exe, Вы возможно встретились с ошибкой в sdk. Просто попытайтесь создать снова. см. http://connect.microsoft.com/VisualStudio/feedback/ViewFeedback.aspx?FeedbackID=106634 для большего количества информации.
Если/когда решение создаст успешно, то у Вас будет файл tesseract.exe в том же каталоге как tesseract файл решения. перетащите Вас многостраничный сжатый tiff сюда и попытайтесь выполнить tesseract., например, если Ваш tiff называют in.tif, и Вы хотите к синтезируемому тексту к out.txt, и язык документов является немецким затем, Ваша командная строка была бы похожа:
tesseract.exe in.tif-l deu выходной файл будет иметь .txt добавленным к нему tesseract. Если Вы просто переводите английский текст затем, можно бросить-l опцию, поскольку tesseract принимает "инженера", если Вы ничего не указываете. Если Ваш tif файл будет иметь расширение файла .tiff, то tesseract будет гадить сам таким образом:
C:\projects\tesseract-2.04>tesseract.exe in.tiff-l deu Tesseract Открытый исходный код Механизм OCR name_to_image_type:Error:Unrecognized отображают ИЗОБРАЖЕНИЕ type:in.tiff:: read_header:Error:Can't читают это изображение type:in.tiff tesseract.exe:Error:Read файла failed:in.tiff
Надо надеяться (скрещенные пальцы, heh) Вы теперь получили файл out.txt OCR'd, находящийся в C:\projects\tesseract-2.04.