Навигация:

Главная Случайная страница Обратная связь ТОП Интересно знать Избранные Новые материалы

Топ:

История развития методов оптимизации: теорема Куна-Таккера, метод Лагранжа, роль выпуклости в оптимизации...

Особенности труда и отдыха в условиях низких температур: К работам при низких температурах на открытом воздухе и в не отапливаемых помещениях допускаются лица не моложе 18 лет, прошедшие...

Проблема типологии научных революций: Глобальные научные революции и типы научной рациональности...

Интересное:

Национальное богатство страны и его составляющие: для оценки элементов национального богатства используются...

Аура как энергетическое поле: многослойную ауру человека можно представить себе подобным...

Мероприятия для защиты от морозного пучения грунтов: Инженерная защита от морозного (криогенного) пучения грунтов необходима для легких малоэтажных зданий и других сооружений...

Дисциплины:

Автоматизация Антропология Археология Архитектура Аудит Биология Бухгалтерия Военная наука Генетика География Геология Демография Журналистика Зоология Иностранные языки Информатика Искусство История Кинематография Компьютеризация Кораблестроение Кулинария Культура Лексикология Лингвистика Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлургия Метрология Механика Музыкология Науковедение Образование Охрана Труда Педагогика Политология Правоотношение Предпринимательство Приборостроение Программирование Производство Промышленность Психология Радиосвязь Религия Риторика Социология Спорт Стандартизация Статистика Строительство Теология Технологии Торговля Транспорт Фармакология Физика Физиология Философия Финансы Химия Хозяйство Черчение Экология Экономика Электроника Энергетика Юриспруденция

Битный текст. Исторически для кодирования текстовых файлов применялись 7-битный набор символов ASCII, а также 8-битные EBCDIC и различные расширения ASCII.

2022-02-10

0.00 из 5.00 0 оценок

Заказать работу

⇐ ПредыдущаяСтр 4 из 6Следующая ⇒

ASCII (англ. AmericanStandardCodeforInformationInterchange, произносится “ аски") — американскаястандартнаякодировочная таблица для печатных символов и специальных кодов. ASCII представляет собой кодировку для представления десятичных цифр, латинского и национального алфавитов, знаков препинания и управляющих символов. Изначально разработанная как 7-битная, содержащая кодировку английского алфавита, с широким распространением 8-битного байта ASCII стала восприниматься как половина 8-битной (байтовой).

EBCDIC(англ. ExtendedBinaryCodedDecimalInterchangeCode — расширенный двоично-десятичный код обмена информацией; произносится «эб-си-дик»).Вторая половина кодовой таблицы в байтовой кодировке используется для кодирования одного национального алфавита. Например, в КОИ-8 – кодировка кириллицы.

Преимуществом 8-битного представления текста является малый объем кода, программная простота и независимость от проблемы порядка байтов или длины машинного слова на разных платформах. Недостаток — большое количество различных стандартов (для различных языков, а также для одного и того же языка), что часто приводит к несовместимости, в результате чего символы не распознаются в тексте.

Поэтому была признана необходимость создание единой более широкой кодировки, которая включала бы большое число национальных языков и других символов. Кодировки с переменной длиной символа, которые широко использовались в Восточной Азии, были признаны слишком сложными в использовании, поэтому было решено использовать символы фиксированной ширины. Вначале было решено использовать 16-битные коды, которую назвали Юникод.

Unicode ( Юникод) — стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков, использующий более одного байта в двоичной кодировке. Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. UnicodeConsortium, UnicodeInc.). Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей. В одном документе Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становится ненужным переключение кодовых страниц.

Стандарт состоит из двух основных разделов: универсальный набор символов (англ. UCS, universal character set) исемействокодировок (англ. UTF, Unicode transformation format). Универсальный набор символов задаёт однозначное соответствие символов кодам — элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS.

Первая версия представляла собой кодировку с фиксированным размером символа в 16 бит, то есть общее число кодов было 2¹⁶ (65 536). Отсюда происходит практика обозначения символов четырьмя шестнадцатеричными цифрами (например, U+04F0). При этом в Юникоде планировалось кодировать не все существующие символы, а только те, которые необходимы в повседневном обиходе. Редко используемые символы должны были размещаться в «области пользовательских символов» (privateusearea), которая первоначально занимала коды U+D800…U+F8FF.

В дальнейшем, однако, было принято решение кодировать все символы и в связи с этим значительно расширить кодовую область. Одновременно с этим, коды символов стали рассматриваться не как 16-битные значения, а как абстрактные числа, которые в компьютере могут представляться множеством разных способов.

Однако поскольку в целом ряде компьютерных систем уже зафиксированы 16-битные символы, то было решено все наиболее важные знаки кодировать только в пределах первых 65 536 позиций (так называемаяангл. basicmultilingualplane, BMP). Остальное пространство используется для «дополнительных символов» (англ. supplementarycharacters): например, систем письма вымерших языков или очень редко используемых китайских иероглифов, математических и музыкальных символов.

Юникод имеет несколько стандартных форматов представления (англ. Unicode transformation format, UTF): UTF-8, UTF-16 (UTF-16BE, UTF-16LE) и UTF-32 (UTF-32BE, UTF-32LE).В MicrosoftWindows NT и основанных на ней системах Windows 2000 и Windows XP в основном используется форма UTF-16LE. В UNIX-подобных операционных системахGNU/Linux, BSD и Mac OS X принята форма UTF-8 для файлов и UTF-32 или UTF-8 для обработки символов в оперативной памяти.

UTF-8 — представление Юникода, обеспечивающее наилучшую совместимость со старыми системами, использовавшими 8-битные символы. Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. И наоборот, в тексте UTF-8 любой байт со значением меньше 128 изображает символ ASCII с тем же кодом.

В потоке данных UTF-16 старший байт может записываться либо перед младшим (англ. UTF-16 little-endian), либопослемладшего (англ. UTF-16 big-endian). Аналогично существует два варианта четырёхбайтной кодировки — UTF-32LE и UTF-32BE.

Коды в двухбайтном стандарте Юникод разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены области знаков с кодами от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A69F. В частности, под буквы русского алфавита выделены:

1) заглавные буквы А-Е - коды от 0х410 до 0х415,

2) заглавная буква Ё - код от 0х401,

3) заглавные буквы Ж-Я - коды от 0х416 до 0х42F,

4) строчные буквы а-е - коды от 0х430 до 0х435,

5) строчная буква ё - код от 0х451,

6) строчные буквы ж-я - коды от 0х436 до 0х44F.

⇐ Предыдущая 1 2 345 6 Следующая ⇒

Поделиться с друзьями:

Эмиссия газов от очистных сооружений канализации: В последние годы внимание мирового сообщества сосредоточено на экологических проблемах...

Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...

Таксономические единицы (категории) растений: Каждая система классификации состоит из определённых соподчиненных друг другу...

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...