Текст PDF изменяет случай при копировании в Блокнот

Например.

В PDF это, но когда я копирую в блокнот, это вставляет. Как скопировать текст с тем же случаем?

например: (просто, например)

Это - PDF

The Superman xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x to you x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx
The xxxxxx xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x xxxxxxxx x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx

Это - вставленный текст (см. "второго paragrapht"),

The Superman xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x to you x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx
the xxxxxx xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x xxxxxxxx x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx
1
задан 09.04.2017, 14:13

1 ответ

При импорте примера в Inkscape выборе "Текста импорта, поскольку текст" дает мне нижний регистр также. То же верно для первой буквы всех других предложений.

Это также показывает некоторый нечетный интервал после тех букв. Тот же самый нечетный интервал присутствует после первых букв в других фрагментах текста, как после первых букв в некотором списке 4 объектов во втором столбце. Эти буквы действительно также показывают нижним регистром в Inkscape, но являются uppercased в нормальном представлении PDF.

Lowercase first character for each sentence

Свойства документа показывают, что PDF был создан с помощью "Файлы Объединения Adobe Acrobat 8.1". Я предполагаю, что приложение связало что-то как маленькие прописные от импортированного документа до нормально выглядящих прописных векторных форм?

В целом, некоторые другие опции:

  • Если PDF является отсканированным документом, то некоторое программное обеспечение сканирования не только включает отсканированное изображение (который является тем, что Вы видите), но также и выполняет OCR для включения скрытого текста в тот же документ (который является тем, что Вы ищете и копируете). Но часто этот OCR не прекрасен. Для получения лучших результатов OCR часто использует словарь проверки правописания также .

    Трудно предположить, что OCR перепутал бы T для t, но если это интерпретировало T как I (верхний регистр i) затем, возможно, после этого измененная программа проверки правописания Ihe в the.

  • Если это не отсканированный документ, то, возможно, исходный документ использовал маленькие капиталы для форматирования? Я не уверен, если поддержки PDF, что, но затем простой текст (без любого форматирования) мог бы действительно быть, не.

В результате OCR может иногда фиксировать ошибки, которые на самом деле присутствуют в оригинальном тексте.

1
ответ дан 17.12.2019, 00:45

Теги

Похожие вопросы