Практическое решение OCR для преобразования большой книги к цифровому формату?

Я был закончен местом своего прародителя это в прошлые выходные. Моя бабушка вытащила эту гигантскую книгу (на ~1400 страниц) своей истории семейства, возвращающейся к 1630 или около этого. Гигантский компьютерный фанат, который я, я думал, что это будет гладко, чтобы иметь всю информацию, хранившую в базе данных и доступную от сети. Я могу обработать все веб-программирование и регулярные выражения и что не, но то, что я не знаю, является лучшим способом получить текст с книги на компьютер.

Я знаю, что некоторый OCR будет необходим от небольшого исследования, которое я провел, кажется, что мои опции:

  1. сделайте снимок каждой страницы с камерой, затем обрабатывают изображения с программным обеспечением OCR
  2. используйте сканер, чтобы отсканировать каждую страницу, затем обработайте с программным обеспечением OCR
  3. используйте некоторое переносное устройство, как это.

У кого-либо есть какие-либо идеи о лучшем способе заняться этой проблемой? Я не хочу уничтожать книгу, потому что насколько я знаю, она не может быть заменена. Это - вероятно, единственное время, я когда-либо собираюсь просканировать большую книгу, таким образом, я не думаю, что хочу потратить больше чем 250$ на любой вид устройства. Я не возражаю против некоторого ручного усилия здесь (я понимаю, что это, скорее всего, займет месяцы), но я хотел бы найти наиболее эффективный способ возможным.

Примечание о книге: этому только приблизительно 20 лет, таким образом, это находится в довольно хорошей форме. Это - монохром, и страницы не начались к желтому. Так как это является настолько большим, хотя, я волнуюсь о возможных тенях, когда текст спускается близко к привязке.

12
задан 15.09.2009, 16:29

7 ответов

Я столкнулся с этим на Lifehacker некоторое время назад, и это была одна из моей вершины сделай сам проекты с тех пор.

enter image description here

Замените iPhone любой камерой или обработкой изображений, и Вы получаете стопку хороших, высокого разрешения jpegs готовый к Вам к OCR с любым программным обеспечением, даже (urks!) MS Office... ;)

Дешевый. Эффективный. Сделай сам. Вы не можете победить идею как это.

Править: Комментарии подняли некоторые точки о тенях, завихрениях страницы, и т.д. Довольно легко разрешенных для любого, кто буквально фотокопировал тексты библиотеки.

Добавьте несколько источники света, чтобы осветить книгу и устранить тени.

наклонитесь книга на уровне 90 градусов к страницам не завихряются к привязке в середине. Это также сохраняет привязку.

Я буду видеть, могу ли я дать пример и установить тот сам.

РЕДАКТИРОВАНИЕ 2: загруженный образец того, как необходимо держать книгу и также заметить источник света слева.

enter image description here

8
ответ дан 07.12.2019, 12:00

Из того, что я знаю, ABBYY делает лучшее программное обеспечение OCR, но это не свободно. Необходимо попытаться использовать пробную версию ABBYY FineReader, возможно, он поможет Вам.

3
ответ дан 07.12.2019, 12:00

Необходимо будет получить изображение так или иначе. Различные сервисы существуют, чтобы сделать это для Вас. Вам также будет нужен кто-то, кто знаком с содержанием текста для корректуры, поскольку OCR еще не прекрасен. Особенно с чем-либо рукописным.

Другие обсуждают Ваш вопрос здесь: http://ask.metafilter.com/92506/scan-my-books

Некоторые компании сделают это для Вас: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http://www.ristech.ca/product.html

Некоторое бесплатное программное обеспечение: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

1
ответ дан 07.12.2019, 12:00

Можно хотеть видеть, имеет ли университет около Вас целый книжный сканер, и затем просите/подкупайте студента проводить Вашу книгу через него.

0
ответ дан 07.12.2019, 12:00

Я рекомендовал бы планшетный сканер, подстроенный для книжного сканирования или целого книжного сканера, как упомянуто Chris.

Если Вы можете, скомпилировать Ваши изображения в формат TIFF, поскольку это - промышленный стандарт когда дело доходит до систем управления документами.

Для того, чтобы сделать OCR, я рекомендовал бы tesseract OCR, поскольку это - Google платформы, разъясненный на для их книжного проекта.

0
ответ дан 07.12.2019, 12:00

в то время как звучит заманчивым автоматизировать процесс, можно хотеть инвестировать скорее больше времени и работы, так как эта конкретная книга является персональным вопросом. OCR сделает объем, но необходимо будет корректировать постранично и соответствовать оригиналу. имейте в виду, ошибки автора являются частью соглашения, не исправляйте их (создайте сноски, если Вы чувствуете себя настолько склонными). не торопитесь, не подвергайте себя давлению, книжное сканирование является ишачьим трудом, но платежами тщательности, и Вы закончите с прекрасной цифровой копией Вашего хронического семейства. удача с Вашим усилием :)

0
ответ дан 07.12.2019, 12:00

На работе мы используем книжный сканер Plustek Optibook 3600, который составляет приблизительно 250$.
Это - в основном стандартный планшетный сканер, но со стеклянной пластиной, идущей право на край сканера так, чтобы книжная страница могла быть помещена плоская на пластине. Это устраняет тень позвоночника и старается не повреждать книги.

enter image description here

0
ответ дан 07.12.2019, 12:00

Теги

Похожие вопросы