Как скопировать текст из PDF, не теряя форматирование?

Когда я копирую текст из файла PDF и в текстовый редактор, он заканчивается искаженный во множестве путей. Форматирование как полужирный и курсив потеряно; повреждения мягкой линии в рамках абзаца текста преобразовываются в переносы строк; тире для нарушения обещания, более чем две строки сохраняются, даже когда они не должны быть; и одинарные и двойные кавычки заменяются? знаки.

Идеально, я хотел бы смочь скопировать текст с PDF и иметь форматирование, преобразованное в HTML-коды, "умные кавычки" преобразовали в "и', и разрывы строки, сделанные правильно. Там какой-либо путь состоит в том, чтобы сделать это?

41
задан 12.10.2010, 00:13

1 ответ

Во-первых, необходимо понять, каков PDF. PDFs разработаны для имитации печатной страницы, и они разработаны только как выходной формат, не формат ввода. PDF является в основном картой, содержащей точное местоположение символов (отдельные буквы или пунктуация, и т.д.) или изображения. В большинстве случаев PDF даже не хранит информацию о том, где концы слова и другой начинают, а тем более вещи как мягкие повреждения по сравнению с твердыми повреждениями для окончаний абзаца.

(Несколько недавних PDFs действительно хранят некоторую информацию об этом материале, но это - новая технология, и Вам посчастливилось бы найти PDFs как этот. Даже если бы Вы сделали, то Ваше средство просмотра PDF не могло бы знать об этом.)

Так или иначе это до Вашего программного обеспечения для реализации некоторого "искусственного интеллекта" для извлечения просто из местоположений отдельных символов, что является словом, что является абзацем и так далее. Другое программное обеспечение собирается сделать это лучше, чем другие, и оно также собирается зависеть от того, как PDF был сделан. В любом случае Вы никогда не должны ожидать идеальные результаты. При наличии вывода PDF не является тем же как наличием исходного документа. Намного лучше, чтобы попытаться получить это, если Вы можете.

Стандартное решение Вашего вида проблемы состоит в том, чтобы использовать Adobe Acrobat Professional (дорогой, не свободный читатель) для преобразования PDF в HTML. Даже это не собирается получать идеальные результаты.

Существует бесплатное программное обеспечение, которое может использоваться для извлечения текста из PDFs с частью форматирования неповрежденного, но снова, не ожидайте идеальные результаты. Посмотрите, например, калибр (который может преобразовать в RTF-формат), pdftohtml/pdfreflow или текстовой процессор AbiWord (со всеми включенными плагинами импорта/экспорта). Существует также плагин импорта PDF для OpenOffice.

Но не ожидайте совершенство ни с одним из этих результатов. Вы идете вразрез с мелкой частицей здесь. PDF просто не предназначен как доступный для редактирования формат ввода.

54
ответ дан 07.12.2019, 08:43

Теги

Похожие вопросы