Обсуждение:Представление символов, таблицы кодировок — различия между версиями
(Новая страница: «* Написать что такое BOM в unicode и зачем он нужен.») |
(→Таблицы кодировок: повтор слов) (Метки: правка с мобильного устройства, правка из мобильной версии) |
||
(не показано 13 промежуточных версий 5 участников) | |||
Строка 1: | Строка 1: | ||
− | + | : {{tick| ticked=1}} Написать что такое BOM в unicode и зачем он нужен. | |
+ | : {{tick| ticked=1}} Мне казалось, на лекции рассказывали больше, если так, то дополнить тем, чего тут не хватает. | ||
+ | : {{tick | ticked=1}} BOM - совсем не кодировка, а один из заголовков у тебя называется "Представление кодировки Byte order marks"(копипаст с википедии). | ||
+ | : {{tick| ticked=1}} согласуем род прилагательных с существительными : представлен'''ие''' — шестнадцатиричн'''ое''', дестятичн'''ое'''. | ||
+ | : {{tick| ticked=1}} английские переводы терминов надо выделять курсивом. | ||
+ | : {{tick| ticked=1}} не написано, собственно, почему порядок байт может быть в одну или другую сторону(почему, например, к UTF-8 неприменимо понятие порядка байтов, а в UTF-16 и 32 это существенно?) | ||
+ | : {{tick| ticked=1}} про BOM и порядок байтов написано сразу в двух местах - в пункте "BOM" и в "Использование". Фактически, они дублируют друг друга, это — плохо. | ||
+ | : {{tick | ticked=1}} ты перечитывал свой конспект? раз уж скопипастил табличку с википедии, хотя бы следи за форматированием. Да и я сомневаюсь что кому-то понадоятся столь экзотические кодировки в курсе дискретной математики. Думаю, надо оставить UTF-8, UTF-16(LE, BE). Также сомневаюсь что кому-то нужно десятичное представление(всё равно такие вещи смотрят в hex редакторах) и в ISO-8859-1(что это вообще, в курсе вики-конспектов этого нет). | ||
+ | : {{tick | ticked=1}} Опять какое-то дублирующееся определение : «Byte Order Mark (BOM) - Unicode символ ...блаблабла...также именуемый меткой порядка байтов (англ. byte order mark, BOM)». | ||
+ | : {{tick | ticked=1}} Надо создать подпункты "ASCII" и "Unicode" внутри "Наиболее известные кодировки"), а там уже написать про BOM и т.п. | ||
+ | : {{tick | ticked=1}} «байт» в родительном патеже можно писать и как «байт» и как «байтов», поэтому не обязательно писать в скобках альтернативный вариант. | ||
+ | : {{tick | ticked=1}} как-то странно упорядочил, пиши сначала про BOM в UTF-8, потом про BOM в UTF-16, потом то же про UTF-32. | ||
+ | : {{tick | ticked=1}} вообще говоря, использовать BOM с UTF-32 можно, но могут быть проблемы, а так правила абсолютно те же что для UTF-16. | ||
+ | : {{tick | ticked=1}} Определения ASCII и Unicode, которые сейчас в разделе «Таблицы кодировок» надо занести в соотвествующие разделы про ASCII и Unicode. | ||
+ | : {{tick | ticked=1}} Таблице «Unicode - UTF-8 - Представленные символы» надо добавить границы, а то смотрится как-то не очень(кажется, параметр «border», посмотри на википедии или в других конспектах | ||
+ | : {{tick | ticked=1}} Теперь раздел «BOM» - подраздел «Наиболее известные кодировки», что опять нелогично. Так как он отноится к Unicode и затрагивает все Unicode кодировки, можно просто объединить «BOM» и «Представление BOM в кодировках» с «Кодировки стандарта UNICODE». Либо сделать BOM подпунктом раздела про Unicode. | ||
+ | : {{tick | ticked=1}} вряд ли вообще стоит делать отдельный пункт «Представление BOM в кодировках», в котором только таблица. Лучше ей дать название(как это сделать - [http://ru.wikipedia.org/wiki/%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D1%8F:%D0%9A%D0%B0%D0%BA_%D0%B4%D0%B5%D0%BB%D0%B0%D1%82%D1%8C_%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86%D1%8B Википедия:Как делать таблицы]), это будет очень аккуратно выглядеть. | ||
+ | |||
+ | --[[Участник:Dgerasimov|Дмитрий Герасимов]] 22:58, 30 октября 2011 (MSK) | ||
+ | |||
+ | |||
+ | == Замечания АС == | ||
+ | {{tick | ticked=1}} Не написано, что такое Unicode | ||
+ | --[[Участник:Dgerasimov|Дмитрий Герасимов]] | ||
+ | |||
+ | * "Также возможны коды длиной в 5 и 6 бит" - наверное, имелось в виду "5 и 6 байт" --[[Участник:Rybak|Андрей Рыбак]] 04:58, 13 января 2012 (MSK) | ||
+ | |||
+ | ** Например, стандартный телеграфный ( "Бодо" ) и перфокарточный коды соответственно. [[Служебная:Вклад/185.220.101.49|185.220.101.49]] | ||
+ | |||
+ | == ЯННП == | ||
+ | |||
+ | <blockquote>причем 4-байтные символы представляются как есть, а более длинные — с помощью суррогатных пар</blockquote> | ||
+ | Непонятно, что такое «4-байтные символы». Кроме того, BOM для UTF-8 не определён в стандарте, это очередной костыль от MS, а из статьи складывается впечатление, что это что-то нормальное (в конце разбирается по частям строка в UTF-8, и она содержит этот странный BOM). | ||
+ | |||
+ | == Таблицы кодировок == | ||
+ | |||
+ | <blockquote> каждый символ было отведено по пять бит. Это было связано с малым количеством оперативной памяти на компьютерах тех лет. В эти 32 символа входили только управляющие символы и строчные буквы английского алфавита. </blockquote> | ||
+ | |||
+ | На заре эры ЭВМ глобальная цифровая электросвязь накопила уже более чем полувековой опыт. И 5-разрядной кодировки было достаточно, чтобы передавать телеграммы по трансатлантическому кабелю, не забивая канал ненужными битами. А один из управляющих символов служит для переключения на цифровой регистр, чтобы передавать биржевые сводки цифрами, а не прописью. | ||
+ | |||
+ | У большинства первых практически полезных ЭВМ было достаточно длинное слово, чтобы вместить десятизначное десятичное число (и выдержать конкуренцию с электромеханическими арифмометрами и автоматическими компьютерами). [[Служебная:Вклад/185.220.101.51|185.220.101.51]] |
Текущая версия на 05:31, 6 ноября 2021
- ☑ Написать что такое BOM в unicode и зачем он нужен.
- ☑ Мне казалось, на лекции рассказывали больше, если так, то дополнить тем, чего тут не хватает.
- ☑ BOM - совсем не кодировка, а один из заголовков у тебя называется "Представление кодировки Byte order marks"(копипаст с википедии).
- ☑ согласуем род прилагательных с существительными : представление — шестнадцатиричное, дестятичное.
- ☑ английские переводы терминов надо выделять курсивом.
- ☑ не написано, собственно, почему порядок байт может быть в одну или другую сторону(почему, например, к UTF-8 неприменимо понятие порядка байтов, а в UTF-16 и 32 это существенно?)
- ☑ про BOM и порядок байтов написано сразу в двух местах - в пункте "BOM" и в "Использование". Фактически, они дублируют друг друга, это — плохо.
- ☑ ты перечитывал свой конспект? раз уж скопипастил табличку с википедии, хотя бы следи за форматированием. Да и я сомневаюсь что кому-то понадоятся столь экзотические кодировки в курсе дискретной математики. Думаю, надо оставить UTF-8, UTF-16(LE, BE). Также сомневаюсь что кому-то нужно десятичное представление(всё равно такие вещи смотрят в hex редакторах) и в ISO-8859-1(что это вообще, в курсе вики-конспектов этого нет).
- ☑ Опять какое-то дублирующееся определение : «Byte Order Mark (BOM) - Unicode символ ...блаблабла...также именуемый меткой порядка байтов (англ. byte order mark, BOM)».
- ☑ Надо создать подпункты "ASCII" и "Unicode" внутри "Наиболее известные кодировки"), а там уже написать про BOM и т.п.
- ☑ «байт» в родительном патеже можно писать и как «байт» и как «байтов», поэтому не обязательно писать в скобках альтернативный вариант.
- ☑ как-то странно упорядочил, пиши сначала про BOM в UTF-8, потом про BOM в UTF-16, потом то же про UTF-32.
- ☑ вообще говоря, использовать BOM с UTF-32 можно, но могут быть проблемы, а так правила абсолютно те же что для UTF-16.
- ☑ Определения ASCII и Unicode, которые сейчас в разделе «Таблицы кодировок» надо занести в соотвествующие разделы про ASCII и Unicode.
- ☑ Таблице «Unicode - UTF-8 - Представленные символы» надо добавить границы, а то смотрится как-то не очень(кажется, параметр «border», посмотри на википедии или в других конспектах
- ☑ Теперь раздел «BOM» - подраздел «Наиболее известные кодировки», что опять нелогично. Так как он отноится к Unicode и затрагивает все Unicode кодировки, можно просто объединить «BOM» и «Представление BOM в кодировках» с «Кодировки стандарта UNICODE». Либо сделать BOM подпунктом раздела про Unicode.
- ☑ вряд ли вообще стоит делать отдельный пункт «Представление BOM в кодировках», в котором только таблица. Лучше ей дать название(как это сделать - Википедия:Как делать таблицы), это будет очень аккуратно выглядеть.
--Дмитрий Герасимов 22:58, 30 октября 2011 (MSK)
Замечания АС
☑ Не написано, что такое Unicode --Дмитрий Герасимов
- "Также возможны коды длиной в 5 и 6 бит" - наверное, имелось в виду "5 и 6 байт" --Андрей Рыбак 04:58, 13 января 2012 (MSK)
- Например, стандартный телеграфный ( "Бодо" ) и перфокарточный коды соответственно. 185.220.101.49
ЯННП
причем 4-байтные символы представляются как есть, а более длинные — с помощью суррогатных пар
Непонятно, что такое «4-байтные символы». Кроме того, BOM для UTF-8 не определён в стандарте, это очередной костыль от MS, а из статьи складывается впечатление, что это что-то нормальное (в конце разбирается по частям строка в UTF-8, и она содержит этот странный BOM).
Таблицы кодировок
каждый символ было отведено по пять бит. Это было связано с малым количеством оперативной памяти на компьютерах тех лет. В эти 32 символа входили только управляющие символы и строчные буквы английского алфавита.
На заре эры ЭВМ глобальная цифровая электросвязь накопила уже более чем полувековой опыт. И 5-разрядной кодировки было достаточно, чтобы передавать телеграммы по трансатлантическому кабелю, не забивая канал ненужными битами. А один из управляющих символов служит для переключения на цифровой регистр, чтобы передавать биржевые сводки цифрами, а не прописью.
У большинства первых практически полезных ЭВМ было достаточно длинное слово, чтобы вместить десятизначное десятичное число (и выдержать конкуренцию с электромеханическими арифмометрами и автоматическими компьютерами). 185.220.101.51