Меры информации: синтаксическая (вероятностный и объемный подходы), семантическая, прагматическая. — КиберПедия 

Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...

История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...

Меры информации: синтаксическая (вероятностный и объемный подходы), семантическая, прагматическая.

2017-09-27 149
Меры информации: синтаксическая (вероятностный и объемный подходы), семантическая, прагматическая. 0.00 из 5.00 0 оценок
Заказать работу

1.4.1.Синтаксическая мера количества информации оперирует обезличенной информацией, не выражающей смыслового отношения к объекту. Объем данных в сообщении измеряется количеством символов (разрядов) в этом сообщении. Определить понятие «количество информации» довольно сложно. В решении этой проблемы существуют два основных подхода. Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к «объемному» подходу.

Вероятностный подход

Рассмотрим в качестве примера опыт, связанный с бросанием правильной игральной кости, которая имеет N граней (наиболее распространенным является случай шестигранной кости: N = 6). Результаты данного опыта могут быть следующие: выпадение грани с одним из следующих знаков: 1,2,... N.

Введем в рассмотрение численную величину, измеряющую неопределенность - энтропию (обозначим ее Н). Величины N и Н связаны между собой некоторой функциональной зависимостью:

, (1)

где сама функция f является возрастающей, неотрицательной и определенной (в рассматриваемом нами примере) для = 1, 2,... 6.

Рассмотрим процедуру бросания кости более подробно:

1) готовимся бросить кость; исход опыта неизвестен, т.е. имеется некоторая неопределенность; обозначим ее ;

2) кость брошена; информация об исходе данного опыта получена; обозначим количество этой информации через ;

3) обозначим неопределенность данного опыта после его осуществления через . За количество информации, которое получено в ходе осуществления опыта, примем разность неопределенностей «до» и «после» опыта:

(2)

 

Очевидно, что в случае, когда получен конкретный результат, имевшаяся неопределенность снята ( ), и, таким образом, количество полученной информации совпадает с первоначальной энтропией. Иначе говоря, неопределенность, заключенная в опыте, совпадает с информацией об исходе этого опыта. Заметим, что значение могло быть и не равным нулю, например, в случае, когда в ходе опыта следующей выпала грань со значением, большим «З».

Следующим важным моментом является определение вида функции f в формуле (1). Если варьировать число граней и число бросаний кости (обозначим эту величину через ), общее число исходов (векторов длины М, состоящих из знаков 1,2,.... ) будет равно в степени :

 

X= (3)

 

Так, в случае двух бросаний кости с шестью гранями имеем: = 62 = 36. Фактически каждый исход есть некоторая пара ( , ), где и - соответственно исходы первого и второго бросаний (общее число таких пар - .

Ситуацию с бросанием раз кости можно рассматривать как некую сложную систему, состоящуюиз независимых друг от друга подсистем - «однократных бросаний кости». Энтропия такой системы в раз больше, чем энтропия одной системы (так называемый «принцип аддитивности энтропии»):

Данную формулу можно распространить и на случай любого :

(4)

 

Прологарифмируем левую и правую части формулы (3): , . Подставляем полученное для значение в формулу (4):

.

Обозначив через положительную константу, получим: , или, с учетом (1), . Обычно принимают . Таким образом

- формула Хартли. (5)

 

При введение какой-либо величины является важным вопрос о том, что принимать за единицу ее измерения. Очевидно, будет равно единице при . Иначе говоря, в качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (примером такого опыта может служить бросание монеты при котором возможны два исхода: «орел», «решка»). Такая единица количества информации называется «бит».

Все исходов рассмотренного выше опыта являются равновероятными и поэтому можно считать, что на «долю» каждого исхода приходится одна часть общей неопределенности опыта: . При этом вероятность i -го исхода равняется, очевидно, . Таким образом,

 

- формула Шеннона. (6)

 

Та же формула (6) принимается за меру энтропии в случае, когда вероятности различных исходов опыта неравновероятны (т.е. могут быть различны). Формула (6) называется формулой Шеннона.

В качестве примера определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле (5):

Однако, в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена табл. 1 вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.

Воспользуемся для подсчета формулой (6); ≈ 4,72 бит. Полученное значение , как и можно было предположить, меньше вычисленного ранее. Величина , вычисляемая по формуле (5), является максимальным количеством информации, которое могло бы приходиться на один знак.

Таблица 1. Частотность букв русского языка

i Символ Р(i) i Символ P(i) i Символ Р(i)
  Пробел 0,175     0,028   Г 0.012
    0,090   М 0,026   Ч 0,012
  Е 0,072   Д 0,025   И 0,010
  Ё 0,072   П 0,023   X 0,009
  А 0,062   У 0,021   Ж 0,007
  И 0,062   Я 0,018   Ю 0,006
  Т 0,053   Ы 0,016   Ш 0.006
  Н 0,053   З 0.016   Ц 0,004
  С 0,045   Ь 0,014   Щ 0,003
  Р 0,040   Ъ 0,014   Э 0,003
  В 0,038   Б 0,014   Ф 0,002
  Л 0,035            

 

Аналогичные подсчеты можно провести и для других языков, например, использующих латинский алфавит - английского, немецкого, французского и др. (26 различных букв и «пробел»). По формуле (5) получим

Как и в случае русского языка, частота появления тех или иных знаков не одинакова. Если расположить все буквы данных языков в порядке убывания вероятностей, то получим следующие последовательности:

Английский язык: «пробел», E, T, A, O, N, R, …

Немецкий язык: «пробел», Е, N, I, S, Т, R, …

Французский язык: «пробел», Е, S, А, N, I, Т, …

 

Рассмотрим алфавит, состоящий из двух знаков 0 и 1. Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления (Р(0) = Р(1) = 0,5), то количество информации на один знак при двоичном кодировании будет равно

Таким образом, количество информации (в битах), заключенное в двоичном слове, равно числу двоичных знаков в нем.

Объемный подход

В двоичной системе счисления знаки 0 и 1 будем называть битами (bit), от английского выражения bi nary digi t s - двоичные цифры.

В техническом устройстве наиболее просто реализовать два противоположных физических состояния: некоторый физический элемент, имеющий два различных состояния: намагниченность в двух противоположных направлениях; прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаряженный и т.п. Поэтому создатели компьютеров отдают предпочтение именно двоичной системе счисления. В компьютере бит является наименьшей возможной единицей информации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода).

Для удобства использования введены и более крупные, чем бит, единицы количества информации. Так, двоичное слово из восьми знаков содержит один, байт информации, 1024 байта образуют килобайт (кбайт), 1024 килобайта - мегабайт (Мбайт), а 1024 мегабайта - гигабайт (Гбайт).

Между вероятностным и объемным количеством информации соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в кибернетическом смысле, но заведомо допускает его в объемном. Далее, если некоторое сообщение допускает измеримость количества информации в обоих смыслах, то они не обязательно совпадают, при этом кибернетическое количество информации не может быть больше объемного.


Поделиться с друзьями:

Опора деревянной одностоечной и способы укрепление угловых опор: Опоры ВЛ - конструкции, предназначен­ные для поддерживания проводов на необходимой высоте над землей, водой...

Типы сооружений для обработки осадков: Септиками называются сооружения, в которых одновременно происходят осветление сточной жидкости...

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...

История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.022 с.