Я был закончен местом своего прародителя это в прошлые выходные. Моя бабушка вытащила эту гигантскую книгу (на ~1400 страниц) своей истории семейства, возвращающейся к 1630 или около этого. Гигантский компьютерный фанат, который я, я думал, что это будет гладко, чтобы иметь всю информацию, хранившую в базе данных и доступную от сети. Я могу обработать все веб-программирование и регулярные выражения и что не, но то, что я не знаю, является лучшим способом получить текст с книги на компьютер.
Я знаю, что некоторый OCR будет необходим от небольшого исследования, которое я провел, кажется, что мои опции:
У кого-либо есть какие-либо идеи о лучшем способе заняться этой проблемой? Я не хочу уничтожать книгу, потому что насколько я знаю, она не может быть заменена. Это - вероятно, единственное время, я когда-либо собираюсь просканировать большую книгу, таким образом, я не думаю, что хочу потратить больше чем 250$ на любой вид устройства. Я не возражаю против некоторого ручного усилия здесь (я понимаю, что это, скорее всего, займет месяцы), но я хотел бы найти наиболее эффективный способ возможным.
Примечание о книге: этому только приблизительно 20 лет, таким образом, это находится в довольно хорошей форме. Это - монохром, и страницы не начались к желтому. Так как это является настолько большим, хотя, я волнуюсь о возможных тенях, когда текст спускается близко к привязке.
Я столкнулся с этим на Lifehacker некоторое время назад, и это была одна из моей вершины сделай сам проекты с тех пор.
Замените iPhone любой камерой или обработкой изображений, и Вы получаете стопку хороших, высокого разрешения jpegs готовый к Вам к OCR с любым программным обеспечением, даже (urks!) MS Office... ;)
Дешевый. Эффективный. Сделай сам. Вы не можете победить идею как это.
Править: Комментарии подняли некоторые точки о тенях, завихрениях страницы, и т.д. Довольно легко разрешенных для любого, кто буквально фотокопировал тексты библиотеки.
Добавьте несколько источники света, чтобы осветить книгу и устранить тени.
наклонитесь книга на уровне 90 градусов к страницам не завихряются к привязке в середине. Это также сохраняет привязку.
Я буду видеть, могу ли я дать пример и установить тот сам.
РЕДАКТИРОВАНИЕ 2: загруженный образец того, как необходимо держать книгу и также заметить источник света слева.
Из того, что я знаю, ABBYY делает лучшее программное обеспечение OCR, но это не свободно. Необходимо попытаться использовать пробную версию ABBYY FineReader, возможно, он поможет Вам.
Необходимо будет получить изображение так или иначе. Различные сервисы существуют, чтобы сделать это для Вас. Вам также будет нужен кто-то, кто знаком с содержанием текста для корректуры, поскольку OCR еще не прекрасен. Особенно с чем-либо рукописным.
Другие обсуждают Ваш вопрос здесь: http://ask.metafilter.com/92506/scan-my-books
Некоторые компании сделают это для Вас: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http://www.ristech.ca/product.html
Некоторое бесплатное программное обеспечение: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html
Можно хотеть видеть, имеет ли университет около Вас целый книжный сканер, и затем просите/подкупайте студента проводить Вашу книгу через него.
Я рекомендовал бы планшетный сканер, подстроенный для книжного сканирования или целого книжного сканера, как упомянуто Chris.
Если Вы можете, скомпилировать Ваши изображения в формат TIFF, поскольку это - промышленный стандарт когда дело доходит до систем управления документами.
Для того, чтобы сделать OCR, я рекомендовал бы tesseract OCR, поскольку это - Google платформы, разъясненный на для их книжного проекта.
в то время как звучит заманчивым автоматизировать процесс, можно хотеть инвестировать скорее больше времени и работы, так как эта конкретная книга является персональным вопросом. OCR сделает объем, но необходимо будет корректировать постранично и соответствовать оригиналу. имейте в виду, ошибки автора являются частью соглашения, не исправляйте их (создайте сноски, если Вы чувствуете себя настолько склонными). не торопитесь, не подвергайте себя давлению, книжное сканирование является ишачьим трудом, но платежами тщательности, и Вы закончите с прекрасной цифровой копией Вашего хронического семейства. удача с Вашим усилием :)
На работе мы используем книжный сканер Plustek Optibook 3600, который составляет приблизительно 250$.
Это - в основном стандартный планшетный сканер, но со стеклянной пластиной, идущей право на край сканера так, чтобы книжная страница могла быть помещена плоская на пластине. Это устраняет тень позвоночника и старается не повреждать книги.