Обсуждение:Представление символов, таблицы кодировок — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(Таблицы кодировок: повтор слов)
(Метки: правка с мобильного устройства, правка из мобильной версии)
 
(не показано 10 промежуточных версий 5 участников)
Строка 1: Строка 1:
 
: {{tick| ticked=1}} Написать что такое BOM в unicode и зачем он нужен.
 
: {{tick| ticked=1}} Написать что такое BOM в unicode и зачем он нужен.
 
: {{tick| ticked=1}} Мне казалось, на лекции рассказывали больше, если так, то дополнить тем, чего тут не хватает.
 
: {{tick| ticked=1}} Мне казалось, на лекции рассказывали больше, если так, то дополнить тем, чего тут не хватает.
 +
: {{tick | ticked=1}} BOM - совсем не кодировка, а один из заголовков у тебя называется "Представление кодировки Byte order marks"(копипаст с википедии).
 +
: {{tick| ticked=1}} согласуем род прилагательных с существительными : представлен'''ие''' — шестнадцатиричн'''ое''', дестятичн'''ое'''.
 +
: {{tick| ticked=1}} английские переводы терминов надо выделять курсивом.
 +
: {{tick| ticked=1}} не написано, собственно, почему порядок байт может быть в одну или другую сторону(почему, например, к UTF-8 неприменимо понятие порядка байтов, а в UTF-16 и 32 это существенно?)
 +
: {{tick| ticked=1}} про BOM и порядок байтов написано сразу в двух местах - в пункте "BOM" и в "Использование". Фактически, они дублируют друг друга, это — плохо.
 +
: {{tick | ticked=1}} ты перечитывал свой конспект? раз уж скопипастил табличку с википедии, хотя бы следи за форматированием. Да и я сомневаюсь что кому-то понадоятся столь экзотические кодировки в курсе дискретной математики. Думаю, надо оставить UTF-8, UTF-16(LE, BE). Также сомневаюсь что кому-то нужно десятичное представление(всё равно такие вещи смотрят в hex редакторах) и в ISO-8859-1(что это вообще, в курсе вики-конспектов этого нет).
 +
: {{tick | ticked=1}} Опять какое-то дублирующееся определение : «Byte Order Mark (BOM) - Unicode символ ...блаблабла...также именуемый меткой порядка байтов (англ. byte order mark, BOM)».
 +
: {{tick | ticked=1}} Надо создать подпункты "ASCII" и "Unicode" внутри "Наиболее известные кодировки"), а там уже написать про BOM и т.п.
 +
: {{tick | ticked=1}} «байт» в родительном патеже можно писать и как «байт» и как «байтов», поэтому не обязательно писать в скобках альтернативный вариант.
 +
: {{tick | ticked=1}} как-то странно упорядочил, пиши сначала про BOM в UTF-8, потом про BOM в UTF-16, потом то же про UTF-32.
 +
: {{tick | ticked=1}} вообще говоря, использовать BOM с UTF-32 можно, но могут быть проблемы, а так правила абсолютно те же что для UTF-16.
 +
: {{tick | ticked=1}} Определения ASCII и Unicode, которые сейчас в разделе «Таблицы кодировок» надо занести в соотвествующие разделы про ASCII и Unicode.
 +
: {{tick | ticked=1}} Таблице «Unicode - UTF-8 - Представленные символы» надо добавить границы, а то смотрится как-то не очень(кажется, параметр «border», посмотри на википедии или в других конспектах
 +
: {{tick | ticked=1}} Теперь раздел «BOM» - подраздел «Наиболее известные кодировки», что опять нелогично. Так как он отноится к Unicode и затрагивает все Unicode кодировки, можно просто объединить «BOM» и «Представление BOM в кодировках» с «Кодировки стандарта UNICODE». Либо сделать BOM подпунктом раздела про Unicode.
 +
: {{tick | ticked=1}} вряд ли вообще стоит делать отдельный пункт «Представление BOM в кодировках», в котором только таблица. Лучше ей дать название(как это сделать - [http://ru.wikipedia.org/wiki/%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D1%8F:%D0%9A%D0%B0%D0%BA_%D0%B4%D0%B5%D0%BB%D0%B0%D1%82%D1%8C_%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86%D1%8B Википедия:Как делать таблицы]), это будет очень аккуратно выглядеть.
  
 +
--[[Участник:Dgerasimov|Дмитрий Герасимов]] 22:58, 30 октября 2011 (MSK)
  
  
: {{tick}} не написано, собственно, почему порядок байт может быть в одну или другую сторону(почему, например, к UTF-8 неприменимо понятие порядка байтов, а в UTF-16 и 32 это существенно?)
+
== Замечания АС ==
: {{tick}} BOM - совсем не кодировка, а один из заголовков у тебя называется "Представление кодировки Byte order marks"(копипаст с википедии).
+
{{tick | ticked=1}} Не написано, что такое Unicode
: {{tick}} про BOM и порядок байтов написано сразу в двух местах - в пункте "BOM" и в "Использование". Фактически, они дублируют друг друга, это — плохо.
+
--[[Участник:Dgerasimov|Дмитрий Герасимов]]
: {{tick}} думаю, вообще всё что относится к Unicode можно вынести в отдельный пункт "Unicode"(а лучше создать подпункты "ASCII" и "Unicode" внутри "Наиболее известные кодировки"), а там уже написать про BOM и т.п.
+
 
: {{tick}} ты перечитывал свой конспект? раз уж скопипастил табличку с википедии, хотя бы следи за форматированием. Да и я сомневаюсь что кому-то понадоятся столь экзотические кодировки в курсе дискретной математики. Думаю, надо оставить UTF-8, UTF-16(LE, BE). Также сомневаюсь что кому-то нужно десятичное представление(всё равно такие вещи смотрят в hex редакторах) и в ISO-8859-1(что это вообще, в курсе вики-конспектов этого нет).
+
* "Также возможны коды длиной в 5 и 6 бит" - наверное, имелось в виду "5 и 6 байт" --[[Участник:Rybak|Андрей Рыбак]] 04:58, 13 января 2012 (MSK)
: {{tick}} согласуем род прилагательных с существительными : представлен'''ие''' — шестнадцатиричн'''ое''', дестятичн'''ое'''.
+
 
: {{tick}} английские переводы терминов надо выделять курсивом.
+
** Например, стандартный телеграфный ( "Бодо" ) и перфокарточный коды соответственно.  [[Служебная:Вклад/185.220.101.49|185.220.101.49]]
--[[Участник:Dgerasimov|Дмитрий Герасимов]] 02:31, 25 октября 2011 (MSD)
+
 
 +
== ЯННП ==
 +
 
 +
<blockquote>причем 4-байтные символы представляются как есть, а более длинные — с помощью суррогатных пар</blockquote>
 +
Непонятно, что такое «4-байтные символы». Кроме того, BOM для UTF-8 не определён в стандарте, это очередной костыль от MS, а из статьи складывается впечатление, что это что-то нормальное конце разбирается по частям строка в UTF-8, и она содержит этот странный BOM).
 +
 
 +
==  Таблицы кодировок ==
 +
 
 +
<blockquote> каждый символ было отведено по пять бит. Это было связано с малым количеством оперативной памяти на компьютерах тех лет. В эти 32 символа входили только управляющие символы и строчные буквы английского алфавита. </blockquote>
 +
 
 +
На заре эры ЭВМ глобальная цифровая электросвязь накопила уже более чем полувековой опыт. И 5-разрядной кодировки было достаточно, чтобы передавать телеграммы по трансатлантическому кабелю, не забивая канал ненужными битами. А один из управляющих символов служит для переключения на цифровой регистр, чтобы передавать биржевые сводки  цифрами, а не прописью.  
 +
 
 +
У большинства первых практически полезных ЭВМ было достаточно длинное  слово, чтобы вместить десятизначное десятичное число (и выдержать конкуренцию с электромеханическими арифмометрами и автоматическими компьютерами). [[Служебная:Вклад/185.220.101.51|185.220.101.51]]

Текущая версия на 05:31, 6 ноября 2021

Написать что такое BOM в unicode и зачем он нужен.
Мне казалось, на лекции рассказывали больше, если так, то дополнить тем, чего тут не хватает.
BOM - совсем не кодировка, а один из заголовков у тебя называется "Представление кодировки Byte order marks"(копипаст с википедии).
согласуем род прилагательных с существительными : представление — шестнадцатиричное, дестятичное.
английские переводы терминов надо выделять курсивом.
не написано, собственно, почему порядок байт может быть в одну или другую сторону(почему, например, к UTF-8 неприменимо понятие порядка байтов, а в UTF-16 и 32 это существенно?)
про BOM и порядок байтов написано сразу в двух местах - в пункте "BOM" и в "Использование". Фактически, они дублируют друг друга, это — плохо.
ты перечитывал свой конспект? раз уж скопипастил табличку с википедии, хотя бы следи за форматированием. Да и я сомневаюсь что кому-то понадоятся столь экзотические кодировки в курсе дискретной математики. Думаю, надо оставить UTF-8, UTF-16(LE, BE). Также сомневаюсь что кому-то нужно десятичное представление(всё равно такие вещи смотрят в hex редакторах) и в ISO-8859-1(что это вообще, в курсе вики-конспектов этого нет).
Опять какое-то дублирующееся определение : «Byte Order Mark (BOM) - Unicode символ ...блаблабла...также именуемый меткой порядка байтов (англ. byte order mark, BOM)».
Надо создать подпункты "ASCII" и "Unicode" внутри "Наиболее известные кодировки"), а там уже написать про BOM и т.п.
«байт» в родительном патеже можно писать и как «байт» и как «байтов», поэтому не обязательно писать в скобках альтернативный вариант.
как-то странно упорядочил, пиши сначала про BOM в UTF-8, потом про BOM в UTF-16, потом то же про UTF-32.
вообще говоря, использовать BOM с UTF-32 можно, но могут быть проблемы, а так правила абсолютно те же что для UTF-16.
Определения ASCII и Unicode, которые сейчас в разделе «Таблицы кодировок» надо занести в соотвествующие разделы про ASCII и Unicode.
Таблице «Unicode - UTF-8 - Представленные символы» надо добавить границы, а то смотрится как-то не очень(кажется, параметр «border», посмотри на википедии или в других конспектах
Теперь раздел «BOM» - подраздел «Наиболее известные кодировки», что опять нелогично. Так как он отноится к Unicode и затрагивает все Unicode кодировки, можно просто объединить «BOM» и «Представление BOM в кодировках» с «Кодировки стандарта UNICODE». Либо сделать BOM подпунктом раздела про Unicode.
вряд ли вообще стоит делать отдельный пункт «Представление BOM в кодировках», в котором только таблица. Лучше ей дать название(как это сделать - Википедия:Как делать таблицы), это будет очень аккуратно выглядеть.

--Дмитрий Герасимов 22:58, 30 октября 2011 (MSK)


Замечания АС

Не написано, что такое Unicode --Дмитрий Герасимов

  • "Также возможны коды длиной в 5 и 6 бит" - наверное, имелось в виду "5 и 6 байт" --Андрей Рыбак 04:58, 13 января 2012 (MSK)
    • Например, стандартный телеграфный ( "Бодо" ) и перфокарточный коды соответственно. 185.220.101.49

ЯННП

причем 4-байтные символы представляются как есть, а более длинные — с помощью суррогатных пар

Непонятно, что такое «4-байтные символы». Кроме того, BOM для UTF-8 не определён в стандарте, это очередной костыль от MS, а из статьи складывается впечатление, что это что-то нормальное (в конце разбирается по частям строка в UTF-8, и она содержит этот странный BOM).

Таблицы кодировок

каждый символ было отведено по пять бит. Это было связано с малым количеством оперативной памяти на компьютерах тех лет. В эти 32 символа входили только управляющие символы и строчные буквы английского алфавита.

На заре эры ЭВМ глобальная цифровая электросвязь накопила уже более чем полувековой опыт. И 5-разрядной кодировки было достаточно, чтобы передавать телеграммы по трансатлантическому кабелю, не забивая канал ненужными битами. А один из управляющих символов служит для переключения на цифровой регистр, чтобы передавать биржевые сводки цифрами, а не прописью.

У большинства первых практически полезных ЭВМ было достаточно длинное слово, чтобы вместить десятизначное десятичное число (и выдержать конкуренцию с электромеханическими арифмометрами и автоматическими компьютерами). 185.220.101.51