Изменения

Перейти к: навигация, поиск

Представление символов, таблицы кодировок

318 байт убрано, 05:26, 26 октября 2011
Нет описания правки
Кодировка Unicode может использовать 16-битные или 32-разрядных числа и приложение должно знать как дальше с ним поступать. Поэтому потребность в BOM возникает при обмене документами.
== Использование ==В потоке данных UTFначале Unicode файла вы можете найти несколько байтов, отображающих Unicode точку кода U+FEFF ZERO WIDTH NON-16 старший байт может записываться либо перед младшим BREAKING SPACE (англZWNBSP). UTF-16 bigЭта комбинация байтов известна как byte-endian), либо после младшего order mark (англ. UTF-16 little-endianBOM). Аналогично существует два варианта четырёхбайтной кодировки — UTF-32BE и UTF-32LE.
Для определения формата представления Юникода Когда символ закодирован в текстовом файле используется приёмUTF-16, по которому в начале текста записывается символ U+FEFF его 2 или 4 байта можно упорядочить двумя разными способами (неразрывный пробел с нулевой ширинойlittle-endian или big-endian), также именуемый меткой порядка байтов (англ. Изображение ниже показывает это. byte -order markуказывает, какой порядок используется, BOM)так что приложения могут немедленно расшифровать контент. Этот способ позволяет различать UTF-16LE и UTF-16BE, поскольку символа U+FFFE не существует16 контент должен всегда начинатся с BOM. Также он иногда применяется для обозначения формата UTF-8, хотя к этому формату и неприменимо понятие порядка байтов[[Файл:Bom.png|thumb|left| 400px]]                     == Представление BOM в кодировке кодировках ==
{| class="wikitable"
|-
! Кодирование
! Представление (ШестнадцатеричнаяШестнадцатеричное)
! Представление (ISO-8859-1)
|-
55
правок

Навигация