Битный текст. Исторически для кодирования текстовых файлов применялись 7-битный набор символов ASCII, а также 8-битные EBCDIC и различные расширения ASCII. — КиберПедия 

Опора деревянной одностоечной и способы укрепление угловых опор: Опоры ВЛ - конструкции, предназначен­ные для поддерживания проводов на необходимой высоте над землей, водой...

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...

Битный текст. Исторически для кодирования текстовых файлов применялись 7-битный набор символов ASCII, а также 8-битные EBCDIC и различные расширения ASCII.

2022-02-10 17
Битный текст. Исторически для кодирования текстовых файлов применялись 7-битный набор символов ASCII, а также 8-битные EBCDIC и различные расширения ASCII. 0.00 из 5.00 0 оценок
Заказать работу

ASCII (англ. AmericanStandardCodeforInformationInterchange, произносится “ аски") — американскаястандартнаякодировочная таблица для печатных символов и специальных кодов. ASCII представляет собой кодировку для представления десятичных цифр, латинского и национального алфавитов, знаков препинания и управляющих символов. Изначально разработанная как 7-битная, содержащая кодировку английского алфавита, с широким распространением 8-битного байта ASCII стала восприниматься как половина 8-битной (байтовой).

EBCDIC(англ. ExtendedBinaryCodedDecimalInterchangeCode — расширенный двоично-десятичный код обмена информацией; произносится «эб-си-дик»).Вторая половина кодовой таблицы в байтовой кодировке используется для кодирования одного национального алфавита. Например, в КОИ-8 – кодировка кириллицы.

Преимуществом 8-битного представления текста является малый объем кода, программная простота и независимость от проблемы порядка байтов или длины машинного слова на разных платформах. Недостаток — большое количество различных стандартов (для различных языков, а также для одного и того же языка), что часто приводит к несовместимости, в результате чего символы не распознаются в тексте.

Поэтому была признана необходимость создание единой более широкой кодировки, которая включала бы большое число национальных языков и других символов. Кодировки с переменной длиной символа, которые широко использовались в Восточной Азии, были признаны слишком сложными в использовании, поэтому было решено использовать символы фиксированной ширины. Вначале было решено использовать 16-битные коды, которую назвали Юникод.

Unicode ( Юникод) — стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков, использующий более одного байта в двоичной кодировке. Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. UnicodeConsortium, UnicodeInc.). Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей. В одном документе Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становится ненужным переключение кодовых страниц.

Стандарт состоит из двух основных разделов: универсальный набор символов (англ. UCS, universal character set) исемействокодировок (англ. UTF, Unicode transformation format). Универсальный набор символов задаёт однозначное соответствие символов кодам — элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS.

Первая версия представляла собой кодировку с фиксированным размером символа в 16 бит, то есть общее число кодов было 216 (65 536). Отсюда происходит практика обозначения символов четырьмя шестнадцатеричными цифрами (например, U+04F0). При этом в Юникоде планировалось кодировать не все существующие символы, а только те, которые необходимы в повседневном обиходе. Редко используемые символы должны были размещаться в «области пользовательских символов» (privateusearea), которая первоначально занимала коды U+D800…U+F8FF.

В дальнейшем, однако, было принято решение кодировать все символы и в связи с этим значительно расширить кодовую область. Одновременно с этим, коды символов стали рассматриваться не как 16-битные значения, а как абстрактные числа, которые в компьютере могут представляться множеством разных способов.

Однако поскольку в целом ряде компьютерных систем уже зафиксированы 16-битные символы, то было решено все наиболее важные знаки кодировать только в пределах первых 65 536 позиций (так называемаяангл. basicmultilingualplane, BMP). Остальное пространство используется для «дополнительных символов» (англ. supplementarycharacters): например, систем письма вымерших языков или очень редко используемых китайских иероглифов, математических и музыкальных символов.

Юникод имеет несколько стандартных форматов представления (англ. Unicode transformation format, UTF): UTF-8, UTF-16 (UTF-16BE, UTF-16LE) и UTF-32 (UTF-32BE, UTF-32LE).В MicrosoftWindows NT и основанных на ней системах Windows 2000 и Windows XP в основном используется форма UTF-16LE. В UNIX-подобных операционных системахGNU/Linux, BSD и Mac OS X принята форма UTF-8 для файлов и UTF-32 или UTF-8 для обработки символов в оперативной памяти.

UTF-8 — представление Юникода, обеспечивающее наилучшую совместимость со старыми системами, использовавшими 8-битные символы. Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. И наоборот, в тексте UTF-8 любой байт со значением меньше 128 изображает символ ASCII с тем же кодом.

В потоке данных UTF-16 старший байт может записываться либо перед младшим (англ. UTF-16 little-endian), либопослемладшего (англ. UTF-16 big-endian). Аналогично существует два варианта четырёхбайтной кодировки — UTF-32LE и UTF-32BE.

Коды в двухбайтном стандарте Юникод разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены области знаков с кодами от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A69F. В частности, под буквы русского алфавита выделены:

1) заглавные буквы А-Е - коды от 0х410 до 0х415,

2) заглавная буква Ё - код от 0х401,

3) заглавные буквы Ж-Я - коды от 0х416 до 0х42F,

4) строчные буквы а-е - коды от 0х430 до 0х435,

5) строчная буква ё - код от 0х451,

6) строчные буквы ж-я - коды от 0х436 до 0х44F.

 


Поделиться с друзьями:

Эмиссия газов от очистных сооружений канализации: В последние годы внимание мирового сообщества сосредоточено на экологических проблемах...

Типы сооружений для обработки осадков: Септиками называются сооружения, в которых одновременно происходят осветление сточной жидкости...

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...

Состав сооружений: решетки и песколовки: Решетки – это первое устройство в схеме очистных сооружений. Они представляют...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.011 с.