Unicode является стандартом для компьютерного представления простого текста. Это охватывает Универсальный набор символов, предназначенный для однозначного представления всех символов, используемых в человеческих системах письменности на любом языке, Форматы преобразования Unicode (UTFs), определяя стандартизированные форматы для того, чтобы сохранить и передать текст Unicode и стандарты для обработки и управления текстом.

Unicode является стандартом для компьютерного представления . Это охватывает:

  • Универсальный набор символов (UCS), предназначенный для однозначного представления всех символов, используемых в человеческих системах письменности на любом языке,
  • Форматы преобразования Unicode (UTFs), определяя стандартизированные форматы для того, чтобы сохранить и передать текст Unicode, и
  • стандарты для обработки и управления текстом Unicode.

Последняя версия 6.0, опубликована в 2011.

Универсальный набор символов

Unicode присваивает каждому символу целочисленную кодовую точку (от 0 кому: 0x10FFFF) в UCS для действия как уникальная ссылка. Например:

  • U+0041 A
  • U+0042 B
  • U+0043 C
  • ...
  • U+039B Λ
  • U+039C Μ

Форматы преобразования Unicode

UTFs описывают, как закодировать кодовые точки представлениями байта. Наиболее распространенные формы являются UTF-8 (который кодирует кодовые точки последовательностью один, два, три или четыре байта) и UTF-16 (который кодирует кодовые точки двумя или четырьмя байтами).

Code Point UTF-8 UTF-16 (big-endian) U+0041 41 00 41 U+0042 42 00 42 U+0043 43 00 43 ... U+039B CE 9B 03 9B U+039C CE 9C 03 9C 

Спецификация

Консорциум Unicode также определяет стандарты для алгоритмов сортировки и сопоставления, управляет для капитализации, символьной нормализации и других чувствительных к локали символьных операций.

Идентификация символов