PDF исказил текст когда вставка копии

Я пытаюсь скопировать и вставить текст из файла PDF.

Однако каждый раз, когда я вставляю оригинальный текст, это - огромная путаница искаженных символов. Текст похож на следующее (это - всего одно маленькое извлечение):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

Я попробовал его и в Adobe и в читателях PDF Foxit. Я сделал, 'Сохраняют как текст' в Adobe Reader, и результирующий текстовый файл является тем же искаженным текстом.

Какие-либо идеи, как я могу вывести этот неискаженный текст? (Кроме ручного ввода... существует много текста для извлечения.)

23
задан 19.03.2013, 16:47

4 ответа

Я обнаружил эту проблему с PDFs, который я создал, и я полагаю, что разыскал источник проблемы: использование Предварительного просмотра Mac OS X для сокращения размера файла PDF.

Я создал некоторые Кварцевые фильтры с помощью Утилиты Colorsync для сжатия изображений в PDFs для сокращения полного размера файла PDFs с изображениями. Такой, как описано здесь: http://www.macosxhints.com/article.php?story=20031106133852693

Я нашел, что могу легко скопировать и вставить текст из исходного (несжатого) файла PDF, но после прокручивания, которое PDF Уменьшать фильтр Размера файла я создал, получающийся сжатый PDF не копирует вставку ясно (выходит, будучи похож на строки, которые Вы отправили).

Однако выполнение того же самого исходного PDF через Документ Pro Adobe Acrobat> Уменьшает функцию Размера файла, получающийся сжатый PDF может успешно скопировать и вставить текст.

Так, это не полностью полезно в Вашем случае, предполагая, что Ваш файл PDF был получен откуда-либо, и Вы не можете добраться до исходной версии, если это было действительно сжато в некотором роде. Но это могло бы быть объяснением - что файл был искажен так или иначе, чтобы уменьшить размер файла.

Это могло бы быть полезно для авторов контента, сталкивающихся с подобными проблемами, копирующими и вставляющими текст от PDFs - быть тщательным использованием Кварцевые фильтры OS X для уменьшения PDFs!

- редактирование - я также заметил эту проблему при объединении PDFs с Предварительным просмотром. Два источника PDFs может быть скопирован и вставлен прекрасный, но при перетаскивании страницы из одного файла в другой файл, затем сохранении объединенного PDF, текст в объединенном документе не может быть, копируют/вставляют. Это два документа оба сгенерированные одновременно с Filemaker Pro 11 на Mac - я не могу предположить, что у них были бы различная кодировка или любая такая вещь.

4
ответ дан 07.12.2019, 09:51

Существует риск, что информация не будет восстановима вообще. Документы в формате PDF являются по существу одним документом, лежащим над другим, одним простым текстом, другой изображение. То, когда Вы копируете и вставляете из документа, Вы отмечаете текст при рассмотрении изображения, но что копируется в буфер обмена, является соответствующей частью текстовой части.

В зависимости от пути создается документ, качество и доступность текстовой части могут отличаться значительно. Если Вы сохраните документ текстового процессора в формате PDF, с помощью Acrobat, Word, драйвера принтера PDF или какого-либо другого метода, то качество обычно будет превосходно, так как текстовый файл может быть создан из текста оригинала. Некоторые специальные символы могут стать искаженными, но простой текст обычно прекрасен.

Если документ создается из отсканированного изображения, однако, текстовая часть обычно создается обработкой OCR изображения, которое может привести к довольно жаль результатам, особенно если оригинал менее, чем оптимален для цели.

Плохая программа, используемая для создания PDF или неправильных настроек, могла бы также заставить текстовую часть становиться абсолютно искаженной, как мог, заметно, некоторые виды шифрования работают на файле после того, как это было создано.

Нижняя строка, если текстовая часть документа действительно плоха, нет никакого способа сделать его лучше. Ваш лучший выбор состоял бы в том, чтобы удалить текстовую часть в целом и иметь восстановление программы процесс OCR. Я думаю, что это могло бы быть выполнимо из Acrobat, но я не совсем уверен.

1
ответ дан 07.12.2019, 09:51

Одна возможная причина для этого могла быть то, что внедрение шрифтов в PDF использовало пользовательское кодирование, которое правильно не применяется при копировании текста с PDF.

Можно применить различные методы для сохранения себя от ручного ввода всего содержания.

  1. Вы пытались извлечь текст с одним из инструментов 'pdftotext.exe', загружаемых всюду по 'сети? (Я рекомендовал бы тот, включенный в ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip).
  2. Последняя версия Acrobat Reader имеет опцию "Save as Text...". Это не использует "copy'n'paste" (который дал Вам искаженный текст), но вероятно использует те же программные процедуры, как используется для рендеринга текста на экране и может для этого привести к большему количеству применимых результатов.
  3. Если '2'. не работает, и если у Вас есть доступ к Профессионалу Acrobat: попытайтесь повторно дистиллировать PDF с помощью одного из профилей Производителя алкогольной продукции внедрения шрифтов.
  4. Если '3'. не работает, несмотря на Вас имеющий доступ к Профессионалу Acrobat: попытайтесь повторно дистиллировать PDF, но на этот раз необходимо использовать 'печать в качестве изображения' опция (доступный через кнопку 'Advanced' в левом нижнем углу основного диалогового окна печати). Удостоверьтесь, что Вы используете 600 точек на дюйм (хотя это может произвести огромный файл). Получающийся PDF Вы затем открываетесь снова в Acrobat Pro. Теперь примените алгоритм 'OCR' Acrobat к файлу, который приведет к встроенному тексту (не используемый для рендеринга на экране в Читателе, но используемый для поиска и выделения строк). Теперь можно попробовать еще раз извлекать текст из этого PDF, с помощью любого из вышеупомянутых обсужденных методов.
1
ответ дан 07.12.2019, 09:51

Самый простой способ обойти это состоит в том, чтобы открыть файл в последней версии Google Chrome со встроенным плагином чтения PDF. Затем можно использовать функцию поиска Chrome для нахождения текста, и вставка копии работает правильно.

Я хотел бы проголосовать за комментарий pipitas к ответу Шики, но у меня нет creds :( Проблемой может быть кодирование пользовательского шрифта, не шифрование. В Acrobat нажмите File-> Properties, затем нажмите вкладку Fonts для наблюдения кодирования и вкладки безопасности, чтобы видеть, шифруется ли это.

11
ответ дан 07.12.2019, 09:51

Теги

Похожие вопросы