Я пытаюсь реализовать алгоритм, описанный в научной работе, которую я имею в формате PDF. Алгоритм включает таблицу 256 записей, которые я хочу скопировать в свою реализацию. Однако я, может казаться, не копирую таблицу как текст, которым я могу управлять. Я могу только скопировать его как изображение.
Как я могу извлечь таблицу легко, не вводя его?
Это выделяет его к XML, я думаю.
Если мы бродим по сети, мы можем найти файлы PDF в "куче". Однажды технические детали удивительных пяти мега пиксельных цифровых фотоаппаратов, когда-то статистическая величина о доходах прошлых двух лет предприятия, и после того как блестящий криминальный роман сэра Arthur Conan Doyle сохраняется в файле PDF. Широкое использование этого формата файла берет фокус по вопросу о том, как снова использовать данные в таком файле. Много вещей уже сделаны в этой области. Например, существует несколько инструментов, которые преобразовывают файлы PDF в другие форматы.
Моя работа фокусируется только на извлечении информации о таблице из файлов PDF. Я искал инструменты, которые извлекают основную информацию из файлов PDF. Я нашел инструмент названным pdf2html, который также возвращает данные в формате XML. Для доступа к этому выводу XML, я использовал архив JDOM.
Я разработал несколько эвристики для обнаружения таблицы и разложения. Эта эвристика работа, довольно хорошая на ясных таблицах (не охватывая столбцы или строки) и довольно хороший на сложных таблицах (с охватом строк или столбцов).
Ваша проблема могла бы состоять в том, что это вставлялось в PDF как изображение origional автора. Если это верно (Вы могли узнать путем наблюдения, скопирует ли другой текст в документе как текст) единственные опции состоят в том, чтобы, вероятно, скопировать его вручную (надейтесь, что можно коснуться типа), или используйте программное обеспечение OCR, которое идет со сканерами.