Как я могу извлечь текст из таблицы в файле PDF?

Question

Как я могу извлечь текст из таблицы в файле PDF?

Я пытаюсь реализовать алгоритм, описанный в научной работе, которую я имею в формате PDF. Алгоритм включает таблицу 256 записей, которые я хочу скопировать в свою реализацию. Однако я, может казаться, не копирую таблицу как текст, которым я могу управлять. Я могу только скопировать его как изображение.

Как я могу извлечь таблицу легко, не вводя его?

5

pdf

задан Der Hochstapler 01.12.2014, 12:35

Ссылка

2 ответа

Ваша проблема могла бы состоять в том, что это вставлялось в PDF как изображение origional автора. Если это верно (Вы могли узнать путем наблюдения, скопирует ли другой текст в документе как текст) единственные опции состоят в том, чтобы, вероятно, скопировать его вручную (надейтесь, что можно коснуться типа), или используйте программное обеспечение OCR, которое идет со сканерами.

2

ответ дан Toby Allen 07.12.2019, 17:03

Ссылка

Ivo Flipse · Accepted Answer · 07.12.2019, 17:03

PDF2Table

Это выделяет его к XML, я думаю.

Если мы бродим по сети, мы можем найти файлы PDF в "куче". Однажды технические детали удивительных пяти мега пиксельных цифровых фотоаппаратов, когда-то статистическая величина о доходах прошлых двух лет предприятия, и после того как блестящий криминальный роман сэра Arthur Conan Doyle сохраняется в файле PDF. Широкое использование этого формата файла берет фокус по вопросу о том, как снова использовать данные в таком файле. Много вещей уже сделаны в этой области. Например, существует несколько инструментов, которые преобразовывают файлы PDF в другие форматы.

Моя работа фокусируется только на извлечении информации о таблице из файлов PDF. Я искал инструменты, которые извлекают основную информацию из файлов PDF. Я нашел инструмент названным pdf2html, который также возвращает данные в формате XML. Для доступа к этому выводу XML, я использовал архив JDOM.

Я разработал несколько эвристики для обнаружения таблицы и разложения. Эта эвристика работа, довольно хорошая на ясных таблицах (не охватывая столбцы или строки) и довольно хороший на сложных таблицах (с охватом строк или столбцов).

Ссылка SourceForge

Как я могу извлечь текст из таблицы в файле PDF?

2 ответа

Теги

Похожие вопросы