Обсуждение:Представление символов, таблицы кодировок — различия между версиями

Текущая версия на 05:31, 6 ноября 2021

☑ Написать что такое BOM в unicode и зачем он нужен.

☑ Мне казалось, на лекции рассказывали больше, если так, то дополнить тем, чего тут не хватает.

☑ BOM - совсем не кодировка, а один из заголовков у тебя называется "Представление кодировки Byte order marks"(копипаст с википедии).

☑ согласуем род прилагательных с существительными : представление — шестнадцатиричное, дестятичное.

☑ английские переводы терминов надо выделять курсивом.

☑ не написано, собственно, почему порядок байт может быть в одну или другую сторону(почему, например, к UTF-8 неприменимо понятие порядка байтов, а в UTF-16 и 32 это существенно?)

☑ про BOM и порядок байтов написано сразу в двух местах - в пункте "BOM" и в "Использование". Фактически, они дублируют друг друга, это — плохо.

☑ ты перечитывал свой конспект? раз уж скопипастил табличку с википедии, хотя бы следи за форматированием. Да и я сомневаюсь что кому-то понадоятся столь экзотические кодировки в курсе дискретной математики. Думаю, надо оставить UTF-8, UTF-16(LE, BE). Также сомневаюсь что кому-то нужно десятичное представление(всё равно такие вещи смотрят в hex редакторах) и в ISO-8859-1(что это вообще, в курсе вики-конспектов этого нет).

☑ Опять какое-то дублирующееся определение : «Byte Order Mark (BOM) - Unicode символ ...блаблабла...также именуемый меткой порядка байтов (англ. byte order mark, BOM)».

☑ Надо создать подпункты "ASCII" и "Unicode" внутри "Наиболее известные кодировки"), а там уже написать про BOM и т.п.

☑ «байт» в родительном патеже можно писать и как «байт» и как «байтов», поэтому не обязательно писать в скобках альтернативный вариант.

☑ как-то странно упорядочил, пиши сначала про BOM в UTF-8, потом про BOM в UTF-16, потом то же про UTF-32.

☑ вообще говоря, использовать BOM с UTF-32 можно, но могут быть проблемы, а так правила абсолютно те же что для UTF-16.

☑ Определения ASCII и Unicode, которые сейчас в разделе «Таблицы кодировок» надо занести в соотвествующие разделы про ASCII и Unicode.

☑ Таблице «Unicode - UTF-8 - Представленные символы» надо добавить границы, а то смотрится как-то не очень(кажется, параметр «border», посмотри на википедии или в других конспектах

☑ Теперь раздел «BOM» - подраздел «Наиболее известные кодировки», что опять нелогично. Так как он отноится к Unicode и затрагивает все Unicode кодировки, можно просто объединить «BOM» и «Представление BOM в кодировках» с «Кодировки стандарта UNICODE». Либо сделать BOM подпунктом раздела про Unicode.

☑ вряд ли вообще стоит делать отдельный пункт «Представление BOM в кодировках», в котором только таблица. Лучше ей дать название(как это сделать - Википедия:Как делать таблицы), это будет очень аккуратно выглядеть.

--Дмитрий Герасимов 22:58, 30 октября 2011 (MSK)

Замечания АС

☑ Не написано, что такое Unicode --Дмитрий Герасимов

"Также возможны коды длиной в 5 и 6 бит" - наверное, имелось в виду "5 и 6 байт" --Андрей Рыбак 04:58, 13 января 2012 (MSK)

- Например, стандартный телеграфный ( "Бодо" ) и перфокарточный коды соответственно. 185.220.101.49

ЯННП

причем 4-байтные символы представляются как есть, а более длинные — с помощью суррогатных пар

Непонятно, что такое «4-байтные символы». Кроме того, BOM для UTF-8 не определён в стандарте, это очередной костыль от MS, а из статьи складывается впечатление, что это что-то нормальное (в конце разбирается по частям строка в UTF-8, и она содержит этот странный BOM).

Таблицы кодировок

каждый символ было отведено по пять бит. Это было связано с малым количеством оперативной памяти на компьютерах тех лет. В эти 32 символа входили только управляющие символы и строчные буквы английского алфавита.

На заре эры ЭВМ глобальная цифровая электросвязь накопила уже более чем полувековой опыт. И 5-разрядной кодировки было достаточно, чтобы передавать телеграммы по трансатлантическому кабелю, не забивая канал ненужными битами. А один из управляющих символов служит для переключения на цифровой регистр, чтобы передавать биржевые сводки цифрами, а не прописью.

У большинства первых практически полезных ЭВМ было достаточно длинное слово, чтобы вместить десятизначное десятичное число (и выдержать конкуренцию с электромеханическими арифмометрами и автоматическими компьютерами). 185.220.101.51

@@ Строка 1: / Строка 1: @@
-* Написать что такое BOM в unicode и зачем он нужен.
+: {{tick| ticked=1}} Написать что такое BOM в unicode и зачем он нужен.
+: {{tick| ticked=1}} Мне казалось, на лекции рассказывали больше, если так, то дополнить тем, чего тут не хватает.
+: {{tick | ticked=1}} BOM - совсем не кодировка, а один из заголовков у тебя называется "Представление кодировки Byte order marks"(копипаст с википедии).
+: {{tick| ticked=1}} согласуем род прилагательных с существительными : представлен'''ие''' — шестнадцатиричн'''ое''', дестятичн'''ое'''.
+: {{tick| ticked=1}} английские переводы терминов надо выделять курсивом.
+: {{tick| ticked=1}} не написано, собственно, почему порядок байт может быть в одну или другую сторону(почему, например, к UTF-8 неприменимо понятие порядка байтов, а в UTF-16 и 32 это существенно?)
+: {{tick| ticked=1}} про BOM и порядок байтов написано сразу в двух местах - в пункте "BOM" и в "Использование". Фактически, они дублируют друг друга, это — плохо.
+: {{tick | ticked=1}} ты перечитывал свой конспект? раз уж скопипастил табличку с википедии, хотя бы следи за форматированием. Да и я сомневаюсь что кому-то понадоятся столь экзотические кодировки в курсе дискретной математики. Думаю, надо оставить UTF-8, UTF-16(LE, BE). Также сомневаюсь что кому-то нужно десятичное представление(всё равно такие вещи смотрят в hex редакторах) и в ISO-8859-1(что это вообще, в курсе вики-конспектов этого нет).
+: {{tick | ticked=1}} Опять какое-то дублирующееся определение : «Byte Order Mark (BOM) - Unicode символ ...блаблабла...также именуемый меткой порядка байтов (англ. byte order mark, BOM)».
+: {{tick | ticked=1}} Надо создать подпункты "ASCII" и "Unicode" внутри "Наиболее известные кодировки"), а там уже написать про BOM и т.п.
+: {{tick | ticked=1}} «байт» в родительном патеже можно писать и как «байт» и как «байтов», поэтому не обязательно писать в скобках альтернативный вариант.
+: {{tick | ticked=1}} как-то странно упорядочил, пиши сначала про BOM в UTF-8, потом про BOM в UTF-16, потом то же про UTF-32.
+: {{tick | ticked=1}} вообще говоря, использовать BOM с UTF-32 можно, но могут быть проблемы, а так правила абсолютно те же что для UTF-16.
+: {{tick | ticked=1}} Определения ASCII и Unicode, которые сейчас в разделе «Таблицы кодировок» надо занести в соотвествующие разделы про ASCII и Unicode.
+: {{tick | ticked=1}} Таблице «Unicode - UTF-8 - Представленные символы» надо добавить границы, а то смотрится как-то не очень(кажется, параметр «border», посмотри на википедии или в других конспектах
+: {{tick | ticked=1}} Теперь раздел «BOM» - подраздел «Наиболее известные кодировки», что опять нелогично. Так как он отноится к Unicode и затрагивает все Unicode кодировки, можно просто объединить «BOM» и «Представление BOM в кодировках» с «Кодировки стандарта UNICODE». Либо сделать BOM подпунктом раздела про Unicode.
+: {{tick | ticked=1}} вряд ли вообще стоит делать отдельный пункт «Представление BOM в кодировках», в котором только таблица. Лучше ей дать название(как это сделать - [http://ru.wikipedia.org/wiki/%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D1%8F:%D0%9A%D0%B0%D0%BA_%D0%B4%D0%B5%D0%BB%D0%B0%D1%82%D1%8C_%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86%D1%8B Википедия:Как делать таблицы]), это будет очень аккуратно выглядеть.
+--[[Участник:Dgerasimov|Дмитрий Герасимов]] 22:58, 30 октября 2011 (MSK)
+== Замечания АС ==
+{{tick | ticked=1}} Не написано, что такое Unicode
+--[[Участник:Dgerasimov|Дмитрий Герасимов]]
+* "Также возможны коды длиной в 5 и 6 бит" - наверное, имелось в виду "5 и 6 байт" --[[Участник:Rybak|Андрей Рыбак]] 04:58, 13 января 2012 (MSK)
+** Например, стандартный телеграфный ( "Бодо" ) и перфокарточный коды соответственно.  [[Служебная:Вклад/185.220.101.49|185.220.101.49]]
+== ЯННП ==
+<blockquote>причем 4-байтные символы представляются как есть, а более длинные — с помощью суррогатных пар</blockquote>
+Непонятно, что такое «4-байтные символы». Кроме того, BOM для UTF-8 не определён в стандарте, это очередной костыль от MS, а из статьи складывается впечатление, что это что-то нормальное (в конце разбирается по частям строка в UTF-8, и она содержит этот странный BOM).
+==  Таблицы кодировок ==
+<blockquote> каждый символ было отведено по пять бит. Это было связано с малым количеством оперативной памяти на компьютерах тех лет. В эти 32 символа входили только управляющие символы и строчные буквы английского алфавита. </blockquote>
+На заре эры ЭВМ глобальная цифровая электросвязь накопила уже более чем полувековой опыт. И 5-разрядной кодировки было достаточно, чтобы передавать телеграммы по трансатлантическому кабелю, не забивая канал ненужными битами. А один из управляющих символов служит для переключения на цифровой регистр, чтобы передавать биржевые сводки  цифрами, а не прописью.
+У большинства первых практически полезных ЭВМ было достаточно длинное  слово, чтобы вместить десятизначное десятичное число (и выдержать конкуренцию с электромеханическими арифмометрами и автоматическими компьютерами).  [[Служебная:Вклад/185.220.101.51|185.220.101.51]]

Обсуждение:Представление символов, таблицы кодировок — различия между версиями

Текущая версия на 05:31, 6 ноября 2021

Замечания АС

ЯННП

Таблицы кодировок

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты