Word не преобразовывает символы не-Unicode как ожидалось
Наши пользователи испытывают очень обескураживающую проблему в отношении того, как MS Word (в Windows) обрабатывает non-unicode символы. Эта проблема подтверждена и в Word 2007 и в Word 2010 Beta с помощью Windows XP SP3; я подозреваю, что это работает тот же путь в 2003.
Проблема:
Пользователь создает документ с помощью нешрифта юникода, вводя символы для представления экспоненциальных представлений. Например, он вводит Mu (µ).Примечание: Я вставил в unicode-совместимом Mu для ссылки.
Пользователь открывает свой документ, и попытки скопировать / вставляют этот non-unicode символ, представляющий Mu в веб-браузер для записи в нашу систему. Это вставляет как нераспознанный символ. Это ожидается.
Пользователь открывает свой документ, выбирает non-unicode символ и корректирует его шрифт к "Arial Unicode MS", сохраняя документ. Он закрывается / вновь открыл документ в придачу. После того, как вновь открытый, он копирует то, что должно быть unicode Mu и вставляет его в веб-браузер. Это все еще представлено как нераспознанный символ.
Пользователь создает новый документ, устанавливает шрифт на "Arial Unciode MS" и создает Mu. Он копирует этого Mu в веб-браузер, и он вставляет в Unicode, как ожидалось.
Заключение:
Word на самом деле не преобразовывает non-unicode символы в unicode символы, когда он должен, когда шрифт юникода выбран. Вместо этого это берет лучшее предположение по причинам дисплея, но не делает никакого фактического преобразования.
Как я преодолеваю эту проблему?
Я могу изменить некоторые настройки в Word для принуждения преобразования? Предпочтительный.
Существует ли "более чистый" макрос приложения или Word, который сделает это?
Другие решения?
Дополнительные примечания:
Перепечатывание затронутых документов с помощью unicode не является опцией
Это не проблема в Mac OS X с помощью новой версии Word. Демонстрационный случай такой как в (3) результаты в unicode Mu, вставляемом в браузер.
Попытайтесь использовать Paste Special; должна быть опция для текста Unicode.
Обратите внимание, что, если исходный документ был создан со шрифтом Символа, это не поможет. Windows действительно не знает, что символ связан с определенным символом Unicode, шрифты символа были созданы перед Unicode, поскольку способ удовлетворить потребности и эти два не взаимозаменяемый.
Долгий процесс, но я обычно преобразовываю такие файлы в изображения и затем обрабатываю те изображения через любое программное обеспечение OCR. Это помогает. Но, я самостоятельно искал ровный более оптимальный вариант.