Я пытаюсь скопировать и вставить текст из файла PDF.
Однако каждый раз, когда я вставляю оригинальный текст, это - огромная путаница искаженных символов. Текст похож на следующее (это - всего одно маленькое извлечение):
4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03!
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$!
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40!
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'!
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40!
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(!
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97!
)*+*+, C<88,?>8513AG<5A14,
Я попробовал его и в Adobe и в читателях PDF Foxit. Я сделал, 'Сохраняют как текст' в Adobe Reader, и результирующий текстовый файл является тем же искаженным текстом.
Какие-либо идеи, как я могу вывести этот неискаженный текст? (Кроме ручного ввода... существует много текста для извлечения.)
Я обнаружил эту проблему с PDFs, который я создал, и я полагаю, что разыскал источник проблемы: использование Предварительного просмотра Mac OS X для сокращения размера файла PDF.
Я создал некоторые Кварцевые фильтры с помощью Утилиты Colorsync для сжатия изображений в PDFs для сокращения полного размера файла PDFs с изображениями. Такой, как описано здесь: http://www.macosxhints.com/article.php?story=20031106133852693
Я нашел, что могу легко скопировать и вставить текст из исходного (несжатого) файла PDF, но после прокручивания, которое PDF Уменьшать фильтр Размера файла я создал, получающийся сжатый PDF не копирует вставку ясно (выходит, будучи похож на строки, которые Вы отправили).
Однако выполнение того же самого исходного PDF через Документ Pro Adobe Acrobat> Уменьшает функцию Размера файла, получающийся сжатый PDF может успешно скопировать и вставить текст.
Так, это не полностью полезно в Вашем случае, предполагая, что Ваш файл PDF был получен откуда-либо, и Вы не можете добраться до исходной версии, если это было действительно сжато в некотором роде. Но это могло бы быть объяснением - что файл был искажен так или иначе, чтобы уменьшить размер файла.
Это могло бы быть полезно для авторов контента, сталкивающихся с подобными проблемами, копирующими и вставляющими текст от PDFs - быть тщательным использованием Кварцевые фильтры OS X для уменьшения PDFs!
- редактирование - я также заметил эту проблему при объединении PDFs с Предварительным просмотром. Два источника PDFs может быть скопирован и вставлен прекрасный, но при перетаскивании страницы из одного файла в другой файл, затем сохранении объединенного PDF, текст в объединенном документе не может быть, копируют/вставляют. Это два документа оба сгенерированные одновременно с Filemaker Pro 11 на Mac - я не могу предположить, что у них были бы различная кодировка или любая такая вещь.
Существует риск, что информация не будет восстановима вообще. Документы в формате PDF являются по существу одним документом, лежащим над другим, одним простым текстом, другой изображение. То, когда Вы копируете и вставляете из документа, Вы отмечаете текст при рассмотрении изображения, но что копируется в буфер обмена, является соответствующей частью текстовой части.
В зависимости от пути создается документ, качество и доступность текстовой части могут отличаться значительно. Если Вы сохраните документ текстового процессора в формате PDF, с помощью Acrobat, Word, драйвера принтера PDF или какого-либо другого метода, то качество обычно будет превосходно, так как текстовый файл может быть создан из текста оригинала. Некоторые специальные символы могут стать искаженными, но простой текст обычно прекрасен.
Если документ создается из отсканированного изображения, однако, текстовая часть обычно создается обработкой OCR изображения, которое может привести к довольно жаль результатам, особенно если оригинал менее, чем оптимален для цели.
Плохая программа, используемая для создания PDF или неправильных настроек, могла бы также заставить текстовую часть становиться абсолютно искаженной, как мог, заметно, некоторые виды шифрования работают на файле после того, как это было создано.
Нижняя строка, если текстовая часть документа действительно плоха, нет никакого способа сделать его лучше. Ваш лучший выбор состоял бы в том, чтобы удалить текстовую часть в целом и иметь восстановление программы процесс OCR. Я думаю, что это могло бы быть выполнимо из Acrobat, но я не совсем уверен.
Одна возможная причина для этого могла быть то, что внедрение шрифтов в PDF использовало пользовательское кодирование, которое правильно не применяется при копировании текста с PDF.
Можно применить различные методы для сохранения себя от ручного ввода всего содержания.
Самый простой способ обойти это состоит в том, чтобы открыть файл в последней версии Google Chrome со встроенным плагином чтения PDF. Затем можно использовать функцию поиска Chrome для нахождения текста, и вставка копии работает правильно.
Я хотел бы проголосовать за комментарий pipitas к ответу Шики, но у меня нет creds :( Проблемой может быть кодирование пользовательского шрифта, не шифрование. В Acrobat нажмите File-> Properties, затем нажмите вкладку Fonts для наблюдения кодирования и вкладки безопасности, чтобы видеть, шифруется ли это.