Обсуждение:Представление символов, таблицы кодировок

Материал из Викиконспекты
Версия от 05:31, 6 ноября 2021; 185.220.101.51 (обсуждение) (Таблицы кодировок: повтор слов)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Написать что такое BOM в unicode и зачем он нужен.
Мне казалось, на лекции рассказывали больше, если так, то дополнить тем, чего тут не хватает.
BOM - совсем не кодировка, а один из заголовков у тебя называется "Представление кодировки Byte order marks"(копипаст с википедии).
согласуем род прилагательных с существительными : представление — шестнадцатиричное, дестятичное.
английские переводы терминов надо выделять курсивом.
не написано, собственно, почему порядок байт может быть в одну или другую сторону(почему, например, к UTF-8 неприменимо понятие порядка байтов, а в UTF-16 и 32 это существенно?)
про BOM и порядок байтов написано сразу в двух местах - в пункте "BOM" и в "Использование". Фактически, они дублируют друг друга, это — плохо.
ты перечитывал свой конспект? раз уж скопипастил табличку с википедии, хотя бы следи за форматированием. Да и я сомневаюсь что кому-то понадоятся столь экзотические кодировки в курсе дискретной математики. Думаю, надо оставить UTF-8, UTF-16(LE, BE). Также сомневаюсь что кому-то нужно десятичное представление(всё равно такие вещи смотрят в hex редакторах) и в ISO-8859-1(что это вообще, в курсе вики-конспектов этого нет).
Опять какое-то дублирующееся определение : «Byte Order Mark (BOM) - Unicode символ ...блаблабла...также именуемый меткой порядка байтов (англ. byte order mark, BOM)».
Надо создать подпункты "ASCII" и "Unicode" внутри "Наиболее известные кодировки"), а там уже написать про BOM и т.п.
«байт» в родительном патеже можно писать и как «байт» и как «байтов», поэтому не обязательно писать в скобках альтернативный вариант.
как-то странно упорядочил, пиши сначала про BOM в UTF-8, потом про BOM в UTF-16, потом то же про UTF-32.
вообще говоря, использовать BOM с UTF-32 можно, но могут быть проблемы, а так правила абсолютно те же что для UTF-16.
Определения ASCII и Unicode, которые сейчас в разделе «Таблицы кодировок» надо занести в соотвествующие разделы про ASCII и Unicode.
Таблице «Unicode - UTF-8 - Представленные символы» надо добавить границы, а то смотрится как-то не очень(кажется, параметр «border», посмотри на википедии или в других конспектах
Теперь раздел «BOM» - подраздел «Наиболее известные кодировки», что опять нелогично. Так как он отноится к Unicode и затрагивает все Unicode кодировки, можно просто объединить «BOM» и «Представление BOM в кодировках» с «Кодировки стандарта UNICODE». Либо сделать BOM подпунктом раздела про Unicode.
вряд ли вообще стоит делать отдельный пункт «Представление BOM в кодировках», в котором только таблица. Лучше ей дать название(как это сделать - Википедия:Как делать таблицы), это будет очень аккуратно выглядеть.

--Дмитрий Герасимов 22:58, 30 октября 2011 (MSK)


Замечания АС

Не написано, что такое Unicode --Дмитрий Герасимов

  • "Также возможны коды длиной в 5 и 6 бит" - наверное, имелось в виду "5 и 6 байт" --Андрей Рыбак 04:58, 13 января 2012 (MSK)
    • Например, стандартный телеграфный ( "Бодо" ) и перфокарточный коды соответственно. 185.220.101.49

ЯННП

причем 4-байтные символы представляются как есть, а более длинные — с помощью суррогатных пар

Непонятно, что такое «4-байтные символы». Кроме того, BOM для UTF-8 не определён в стандарте, это очередной костыль от MS, а из статьи складывается впечатление, что это что-то нормальное (в конце разбирается по частям строка в UTF-8, и она содержит этот странный BOM).

Таблицы кодировок

каждый символ было отведено по пять бит. Это было связано с малым количеством оперативной памяти на компьютерах тех лет. В эти 32 символа входили только управляющие символы и строчные буквы английского алфавита.

На заре эры ЭВМ глобальная цифровая электросвязь накопила уже более чем полувековой опыт. И 5-разрядной кодировки было достаточно, чтобы передавать телеграммы по трансатлантическому кабелю, не забивая канал ненужными битами. А один из управляющих символов служит для переключения на цифровой регистр, чтобы передавать биржевые сводки цифрами, а не прописью.

У большинства первых практически полезных ЭВМ было достаточно длинное слово, чтобы вместить десятизначное десятичное число (и выдержать конкуренцию с электромеханическими арифмометрами и автоматическими компьютерами). 185.220.101.51