Unicode является стандартом для компьютерного представления простого текста. Это охватывает Универсальный набор символов, предназначенный для однозначного представления всех символов, используемых в человеческих системах письменности на любом языке, Форматы преобразования Unicode (UTFs), определяя стандартизированные форматы для того, чтобы сохранить и передать текст Unicode и стандарты для обработки и управления текстом.
Unicode является стандартом для компьютерного представления простого текста. Это охватывает:
Последняя версия 6.0, опубликована в 2011.
Unicode присваивает каждому символу целочисленную кодовую точку (от 0
кому: 0x10FFFF
) в UCS для действия как уникальная ссылка. Например:
UTFs описывают, как закодировать кодовые точки представлениями байта. Наиболее распространенные формы являются UTF-8 (который кодирует кодовые точки последовательностью один, два, три или четыре байта) и UTF-16 (который кодирует кодовые точки двумя или четырьмя байтами).
Code Point UTF-8 UTF-16 (big-endian) U+0041 41 00 41 U+0042 42 00 42 U+0043 43 00 43 ... U+039B CE 9B 03 9B U+039C CE 9C 03 9C
Консорциум Unicode также определяет стандарты для алгоритмов сортировки и сопоставления, управляет для капитализации, символьной нормализации и других чувствительных к локали символьных операций.