ищите PDFs с нестандартными кодировками символов

Question

ищите PDFs с нестандартными кодировками символов

Некоторые файлы PDF производят мусор ("mojibake") при копировании текста (даже при том, что они представляют OK). Это лишает возможности искать их (независимо от того, что Вы ищете, не будет соответствовать мусору).

У кого-либо есть легкое обходное решение?

Примеры:

Телевизионное руководство EU2816STF TEAC (уступает выше проблем в Adobe Reader и в Windows и в Mac, но хорошо работает в Предварительном просмотре на Mac),
Руководство Leadtek Winfast PVR2 (ссылка FTP; также имеет проблемы в Предварительном просмотре на Mac),
Руководство карты ТВ-тюнера Swann (ссылка FTP; также имеет проблемы в Предварительном просмотре на Mac),
Лицензионное соглашение Phonedisc (от ныне несуществующего DTMS)
Macquarie IFP ежеквартальный обзор фонда
Буклет малого бизнеса BAN-TACS (заархивированная версия)
Флаер Easterfest 2004 года (также из архива)

Я использую Adobe Reader (последняя версия) для Windows - возможно, альтернативное средство просмотра могло бы помочь? Я ищу бесплатное решение для Windows. Открытый исходный код был бы еще лучше.

Править: Документы для инструмента Multivalent Extract Text имеют хорошую сводку того, почему вещи могут пойти не так, как надо, включая: (заключенный в кавычки документ в последний раз изменил Jan 2006),

Текст не может иметь отображения Unicode. Шрифты Типа 3 PDF часто не делают, и TEX, DVI имеет символы, которые не имеют эквивалентов Unicode.

Кодирование Unicode может быть багги. Откройте Office отображает некоторые символы в тот же Unicode, приводящий к очевидному отбрасыванию буквы и удвоению.

Я предполагаю, что окончательное решение в этих случаях было бы к OCR каждым глифом в шрифте для выяснения, каково символ это действительно. Обратите внимание, что это было бы легче, чем OCRing шумный отсканированный документ, потому что точная форма глифа доступна (в бесконечном разрешении, так как это - "векторное" изображение).

19

character-encoding search pdf

задан 15 revs, 3 users 92% 20.03.2013, 15:55

Ссылка

5 ответов

Alex · Answer 1 · 07.12.2019, 10:23

Читатель Foxit, возможно?

Если это имеет значение я просто проверил PDF, с которым Вы связались с Safari 4.0.4 на Mac OS X 10.6.2 и в то время как существует некоторый Engrish, PDF, который он представляет безупречно без любого экранного "мусора". Возможно, у Вас есть проблемы Unicode (более распространенный в Windows, чем Mac OS)?

Community · Answer 2 · 07.12.2019, 10:23

Для телевизионного примера Руководства: та же проблема в Adobe Reader 8.1.2 на Mac, но никакие проблемы с помощью Предварительного просмотра Mac для копирования или искомый текст. Кроме того, при посылании его на счет Gmail и затем выборе "View" и затем "Плоскости HTML" показывает текст. Но Adobe Reader не нравится он.

Его свойства документа показывают "Кодирование: Пользовательский" для шрифтов. Другой документ показывает вещи как "Кодирование: у Ansi" или "римлянина", и нет проблем ни в Предварительном просмотре, ни в Adobe Reader на Mac:

enter image description here

Однако и Leadtek и примеры Swann дают проблемы в Предварительном просмотре на Mac также, и в Gmail и обоих шоу "Кодирование: идентификационные-данные-H". Тест Phonedisc перестал работать также с "Кодированием: Пользовательский".

При путании, и не последовательный, но на некотором форуме Adobe я нашел следующее объяснение еще одного примера что шоу "Кодирование: Пользовательский" (шахта акцента):

После взгляда в PDF оказывается, что никакая применимая информация о кодировании не присутствует (ни в PDF, ни в данных встроенного шрифта) для получения значения символов/глифов, которые отображены на страницах в документе.

Шрифты на самом деле все встраиваются, но способом что вся информация о кодировании была удалена. Это - типичный пример PDF, который синтаксически полностью совместим со спецификацией PDF, но где важная информация о значении текста в ней была выброшена во время процесса создания PDF. Насколько я могу сказать, что было бы очень трудно восстановить информацию о кодировании.

Это не объясняет, почему Предварительный просмотр Mac (и по-видимому Инфикс также) может обработать некоторые примеры, когда Adobe Reader перестал работать, даже с "Кодированием: Пользовательский". Возможно, Предварительный просмотр не имеет никаких проблем, когда точный шрифт, оказывается, присутствует на самом компьютере? Или возможно это просто предполагает кодирование, которое, оказывается, работает на некоторых, но не все документы?

Безотносительно причин это: если прохождение через Google Docs или Gmail не работает, затем возможно, самое легкое (но совсем не легкий), обходное решение должно действительно сохранить как TIFF и затем сделать OCR. Сервисы как Evernote могли бы сделать это на лету (это делает OCR на изображениях; я сомневаюсь, что это сделает OCR на PDF).

Sergiy Belozorov · Answer 3 · 07.12.2019, 10:23

К сожалению, этому нельзя помочь. Документы в формате PDF на самом деле не содержат букв, но они содержат формы букв. Другими словами, вместо того, чтобы читать букву и потянуть ее на экране Adobe Reader, поскольку любое другое приложение чтения PDF просто потянуло бы векторную графику, закодированную в файле.

Однако некоторые читатели PDF идут с программным обеспечением, которое позволяет анализировать форму и восстанавливать текст при помощи распознавания текста. Это работает то же, как будто Вы просканировали статью печатаемого текста и использовали программное обеспечение как ABBYY FineReader для преобразования его назад для отправки текстовых сообщений, но из-за бесконечно высокого качества векторных результатов рисунков обычно намного лучше, чем для отсканированных документов.

Некоторые документы могут быть защищены от того, чтобы быть преобразованным до текста путем одурачивания Adobe Reader. Например, буквы могут быть оттянуты в нескольких перекрывающихся формах таким способом, которым визуально они все еще выглядели бы одинаково, в то время как программное обеспечение распознавания текста не распознает текст. Ваш документ является примером такой защиты.

Один путь состоял бы в том, чтобы распечатать документ в изображение и позволить программному обеспечению распознавания текста распознать его. Более высокое разрешение для изображения улучшит качество. Этот метод однако не действительно удобен.

acatalept · Answer 4 · 07.12.2019, 10:23

Самый простой способ обойти это состоит в том, чтобы открыть файл в последней версии Google Chrome со встроенным плагином чтения PDF. Затем можно использовать функцию поиска Chrome для нахождения текста, и вставка копии работает правильно.

user unknown · Answer 5 · 07.12.2019, 10:23

Загрузка файла 1 перестала работать для меня, файл 2, который я мог открыть с xpdf, быстрым и средством просмотра PDF с открытым исходным кодом. Я предполагаю, что это не может обработать формы, но для чистого текста и диаграммы, я предпочитаю его в течение ее быстрого времени запуска.

ищите PDFs с нестандартными кодировками символов

5 ответов

Теги

Похожие вопросы