Измерение сообщений и информации — КиберПедия 

Таксономические единицы (категории) растений: Каждая система классификации состоит из определённых соподчиненных друг другу...

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...

Измерение сообщений и информации

2019-08-04 291
Измерение сообщений и информации 0.00 из 5.00 0 оценок
Заказать работу

Если отвлечься от конкретного смыслового содержания информации и рассматривать сообщения информации как последовательности знаков, сигналов, то их можно представлять битами, а измерять в байтах, килобайтах, мегабайтах, гигабайтах, терабайтах и петабайтах.

Выше было отмечено, что информация может пониматься и интерпретироваться по разному. Вследствие этого имеются различные подходы к определению методов измерения информации, меры количества информации. Раздел информатики (теории информации) изучающий методы измерения информации называется информметрией.

Количество информации - числовая величина, адекватно характеризующая актуализируемую информацию по разнообразию, сложности, структурированности, определённости, выбору (вероятности) состояний отображаемой системы.

Если рассматривается система, которая может принимать одно из n возможных состояний, то актуальна задача оценки такого выбора, исхода. Такой оценкой может стать мера информации (или события). Мера - это некоторая непрерывная действительная неотрицательная функция, определённая на множестве событий и являющаяся аддитивной т.е. мера конечного объединения событий (множеств) равна сумме мер каждого события.

1. Мера Р. Хартли. Пусть имеется N состояний системы S или N опытов с различными, равновозможными последовательными состояниями системы. Если каждое состояние системы закодировать, например, двоичными кодами определённой длины d, то эту длину необходимо выбрать так, чтобы число всех различных комбинаций было бы не меньше, чем N. Наименьшее число, при котором это возможно или мера разнообразия множества состояний системы задаётся формулой Р. Хартли: H=k logа N, где k - коэффициент пропорциональности (масштабирования, в зависимости от выбранной единицы измерения меры), а - основание системы меры.

Если измерение ведётся в экспоненциальной системе, то k=1, H=lnN (нат); если измерение - в двоичной системе, то k=1/ln2, H=log2N (бит); если измерение - в десятичной системе, то k=1/ln10, H=lgN (дит).

Пример. Чтобы узнать положение точки в системе из двух клеток т.е. получить некоторую информацию, необходимо задать 1 вопрос ("Левая или правая клетка?"). Узнав положение точки, мы увеличиваем суммарную информацию о системе на 1 бит (I=log2 2). Для системы из четырех клеток необходимо задать 2 аналогичных вопроса, а информация равна 2 битам (I=log24). Если система имеет n различных состояний, то максимальное количество информации равно I=log2 n.

Справедливо утверждение Хартли: если во множестве X={x1, x2,..., xn} выделить произвольный элемент xX, то для того, чтобы найти его, необходимо получить не менее loga n (единиц) информации.

По Хартли, для того, чтобы мера информации имела практическую ценность - она должна быть такова, чтобы отражала количество информации пропорционально числу выборов.

Пример. Имеются 192 монеты из которых одна фальшивая. Определим сколько взвешиваний нужно произвести, чтобы определить ее. Если положить на весы равное количество монет, то получим 2 возможности (мы сейчас отвлекаемся от того, что в случае фальшивой монеты таких состояний будет два - состояния независимы): а) левая чашка ниже; б) правая чашка ниже. Таким образом, каждое взвешивание дает количество информации I=log22=1 и, следовательно, для определения фальшивой монеты нужно сделать не менее k взвешиваний, где k удовлетворяет условию log22log2192. Отсюда, k³ 7 или, k=7. Следовательно, нам необходимо сделать не менее 7 взвешиваний (достаточно семи).

Пример. ДНК человека можно представить себе как некоторое слово в четырехбуквенном алфавите, где каждой буквой помечается звено цепи ДНК или нуклеотид. Определим сколько информации (в битах) содержит ДНК, если в нем содержится примерно 1,5´ 1023 нуклеотидов. На один нуклеотид приходится log2(4)=2 (бит) информации. Следовательно, структуры ДНК в организме человека позволяет хранить 3´ 1023 бит информации. Это вся информация, куда входит и избыточная. Реально используемой, - структурированной в памяти человека информации, - гораздо меньше. В этой связи, заметим, что человек за среднюю продолжительность жизни использует около 5 — 6 % нейронов (нервных клеток мозга - “ячеек ОЗУ человека”). Генетический код - чрезвычайно сложная и упорядоченная система записи информации. Информация заложенная в генетическом коде (по учению Дарвина) накапливалась многие тысячелетия. Хромосомные структуры - своеобразный шифровальный код и при клеточном делении создаются копии шифра, каждая хромосома - удваивается, в каждой клетке имеется шифровальный код, при этом каждый человек получает, как правило, свой набор хромосом (код) от матери и от отца. Шифровальный код разворачивает процесс эволюции человека. Вся жизнь, как отмечал Э. Шредингер, “упорядоченное и закономерное поведение материи, основанное... на существовании упорядоченности, которая поддерживается всё время”.

Формула Хартли отвлечена от семантических и качественных, индивидуальных свойств рассматриваемой системы (качества информации, содержащейся в системе, в проявлениях системы с помощью рассматриваемых N состояний системы). Это основная положительная сторона этой формулы. Но имеется и основная отрицательная сторона: формула не учитывает различимость и различность рассматриваемых N состояний системы.

Уменьшение (увеличение) Н может свидетельствовать об уменьшении (увеличении) разнообразия состояний N системы.

Обратное, как это следует из формулы Хартли (основание логарифма берётся больше 1!), - также верно.

Мера К. Шеннона. Формула Шеннона дает оценку информации независимо, отвлеченно от ее смысла:

n I = — å pi log2 pi. i=1

где n - число состояний системы; рi - вероятность (или относительная частота) перехода системы в i-ое состояние, причем сумма всех pi равна 1.

Если все состояния равновероятны (т.е. рi=1/n), то I=log2n.

К. Шенноном доказана теорема о единственности меры количества информации. Для случая равномерного закона распределения плотности вероятности мера Шеннона совпадает с мерой Хартли. Справедливость и достаточная универсальность формул Хартли и Шеннона подтверждается и данными нейропсихологии.

Пример. Время t реакции испытуемого на выбор предмета из имеющихся N предметов линейно зависит от log2N: t=200+180log2N (мс). По аналогичному закону изменяется и время передачи информации в живом организме. В частности, один из опытов по определению психофизиологических реакций человека состоял в том, что перед испытуемым большое количество раз зажигалась одна из n лампочек, которую он должен указать. Оказалось, что среднее время, необходимое для правильного ответа испытуемого, пропорционально не числу n лампочек, а именно величине I определяемой по формуле Шеннона, где pi - вероятность зажечь лампочку номер i..

Легко видеть, что в общем случае:

n I = — å pi log2 pi £ log2n. i=1Если выбор i - го варианта предопределен заранее (выбора, собственно говоря, нет, pi=1), то I=0.

Сообщение о наступлении события с меньшей вероятностью несёт в себе больше информации, чем сообщение о наступлении события с большей вероятностью. Сообщение о наступлении достоверно наступающего события несёт в себе нулевую информацию (и это вполне ясно, - событие всё равно произойдёт когда-либо).

Пример. Если положение точки в системе известно, в частности, она - в k-ой клетке, т.е. âñå рi=0, кроме рk=1, то тогда I=log21=0 и мы здесь новой информации не получаем.

Пример. Выясним, сколько бит информации несет каждое двузначное число со всеми значащими цифрами (отвлекаясь при этом от его конкретного числового значения). Так как таких чисел может быть всего 90 (10 - 99), то информации будет количество I=log290 или приблизительно I=6.5. Так как в таких числах значащая первая цифра имеет 9 значений (1- 9), а вторая - 10 значений (0-9), то I=log290=log29+log210. Приблизительное значение log210 равно 3.32. Итак, сообщение в одну десятичную единицу несет в себе в 3.32 больше информации, чем в одну двоичную единицу (чем log22=1), а вторая цифра в, например, числе аа несёт в себе больше информации, чем первая (если цифры разряда а неизвестны; если же эти цифры а известны, то выбора нет - информация равна нулю).

Если в формуле Шеннона обозначить fi = —n log2 pi , то получим, что I можно понимать как среднеарифметическое величин fi .

Отсюда, fi можно интерпретировать как информационное содержание символа алфавита с индексом i и величиной pi вероятности появления этого символа в сообщении, передающем информацию.

Пусть сообщение состоит из n различных символов, mi - количество символов номер i=1, 2,.... n в этом сообщении, а N - длина сообщения в символах. Тогда вероятность появления i-го символа в сообщении равна pi=mi/N. Число всех различных сообщений длины n будет равно

n

p=N! / Õ mi!.

i=1

Информация в одном таком сообщении равна

n

I=log2 p=ln p / ln 2 = ln (N! / Õ mi!)/ln 2.

i=1

Используя формулу Стирлинга (достаточно точна, например, при N>100) - N!» (N/e)N, а точнее, её следствие - ln N!» N(ln N — 1) получаем (в битах):

n n

I» (N ln N — å mi ln mi) / ln 2=— (N / ln 2) å pi ln pi.

i=1 i=1

Пример. Пусть рассматривается алфавит из двух символов русского языка - “к” и “а”. Относительные частоты встречаемости этих букв в частотном словаре русского языка равны соответственно p1=0.028, p2=0.062. Возьмем произвольное слово p длины N из k букв “к” и m (k+m=N) букв “а” над этим алфавитом. Число всех таких возможных слов, как это следует из комбинаторики, равно n=N!/(k! m!). Оценим количество информации в таком слове: I=log2 n=ln n / ln2=log2e [ln N! — ln k! — ln m!]. Воспользовавшись следствием приведённой выше формулой Стирлинга получаем оценку количества информации (в битах) на 1 символ любого слова:

I1=I/N» (log2e/N)[(k+m)(ln N —1) — k(ln k—1) — m(ln m —1)]=

=(log2e/N)[k ln(N/k) — m ln(N/m)]=

=— log2e[(k/N) ln(k/N) + (m/N) ln(m/N)]£

£ —log2e [p1 ln p1+p2 ln p2]=—log2e[0.028 ln0.028+0.062 ln0.062]» 0.235.

Пример. В сообщении 4 буквы “a”, 2 буквы “б”, 1 буква “и”, 6 букв “р”. Определим количество информации в одном таком (из всех возможных) сообщений. Число N различных возможных сообщений длиной в 13 букв будет равно величине: N=13!/(4!´ 2!´ 1!´ 6!)=180180. Количество информации I в одном сообщении будет равно величине: I=log2(N)=log2180180» 17.5 (бит).

Если k- коэффициент Больцмана, известный в физике как k=1.38´ 10-16 эрг/град, то выражение

n S = —k å pi ln pi i=1в термодинамике известно как этропия или мера хаоса, беспорядка в системе. Сравнивая выражения I и S видим, что I можно понимать как информационную энтропию (энтропию из-за нехватки информации о/в системе).

Нулевой энтропии соответствует максимальная информация. Основное соотношение между энтропией и информацией:

I+S(log2e)/k=const

или в дифференциальной форме

dI/dt= —((log2e)/k)dS/dt.

Основными положительными сторонами формулы Шеннона является её отвлечённость от семантических и качественных, индивидуальных свойств системы, а также то, что в отличие от формулы Хартли она учитывает различность, разновероятность состояний - формула имеет статистический характер (учитывает структуру сообщений), делающий эту формулу удобной для практических вычислений. Основные отрицательные стороны формулы Шеннона: она не различает состояния (с одинаковой вероятностью достижения, например), не может оценивать состояния сложных и открытых систем и применима лишь для замкнутых систем, отвлекаясь от смысла информации.

Увеличение (уменьшение) меры Шеннона свидетельствует об уменьшении (увеличении) энтропии (организованности) системы. При этом энтропия может являться мерой дезорганизации систем от полного хаоса (S=Smax) и полной информационной неопределённости (I=Imin) до полного порядка (S=Smin) и полной информационной определённости (I=Imax) в системе.

Пример. Чем ближе движущийся объект к нам, тем полнее информация обрабатываемая нашими органами чувств, тем чётче и более структурирован (упорядочен) объект. Чем больше информации мы имеем о компьютерной технике, тем меньше психологический барьер перед ним (согласно основному соотношению между энтропией и информацией).

3. Термодинамическая мера. Информационно-термодинамический подход связывает величину энтропии системы с недостатком информации о её внутренней структуре (не восполняемым принципиально, а не нерегистрируемым). При этом число состояний определяет, по существу, степень неполноты наших сведений о системе.

Пусть дана термодинамическая система (процесс) S, а Н0, Н1 - термодинамические энтропии системы S в начальном (равновесном) и конечном состояниях термодинамического процесса, соответственно. Тогда термодинамическая мера информации (негэнтропия) определяется формулой:

Н(Н01)=Н0 — Н1.

Эта формула универсальна для любых термодинамических систем. Уменьшение Н(Н01) свидетельствует о приближении термодинамической системы S к состоянии статического равновесия (при данных доступных ей ресурсах), а увеличение - об удалении.

Поставим некоторый вопрос о состоянии некоторой термодинамической системы. Пусть до начала процесса можно дать p1 равновероятных ответов на этот вопрос (ни один из которых не является предпочтительным другому), а после окончания процесса - p2 ответов. Изменение информации при этом:

D I = k ln(p1 / p2) = k (ln p1 — ln p2 ).

Если p1 > p2 (D I >0) - прирост информации, т.е. сведения о системе стали более определёнными, а при p1<p2 (D I<0)- менее определёнными. Универсально то, что мы не использовали явно структуру системы (механизм протекания процесса).

Пример. Предположим, что имеется термодинамическая система - газ в объёме 10 (м3), который расширяется до объёма 20 (м3). Нас интересует вопрос о координате некоторой молекулы газа. В начале мы знали ответ на вопрос и поэтому p1=1 (lnp1=0). Число ответов было пропорционально [ln10]. После поднятия заслонки мы знаем координату, микросостояние, т.е. изменение информации о состоянии системы равно D I=—kln(20/10)=—kln2 (нат). Это известное в термодинамике выражение для прироста энтропии в расчёте на одну молекулу и оно подтверждает второе начало термодинамики. Энтропия - мера недостатка информации о микросостоянии статической системы.

Величина D I может быть интерпретирована как количество информации, необходимой для перехода от одного уровня организации системы к другой (при D I>0 - более высокой, а при D I>0 - более низкой организации).

Термодинамическая мера (энтропия) применима к системам, находящимся в тепловом равновесии. Для систем, далёких от теплового равновесия, например, живых биосистем, мера - энтропия - менее подходящая.

4. Энергоинформационная (квантово-механическая) мера. Энергия (ресурс) и информация (структура) - две фундаментальные характеристики систем реального мира, связывающие их вещественные, пространственные, временные характеристики. Если А - множество "энергетического происхождения", а В - множество "информационного происхождения", то можно определить энергоинформационную меру (системы A«B) как отношение, связь между этими множествами вида f: A® B. Она должна отражать механизм взаимосвязей физико-информационных и вещественно-энергетических структур и процессов в системе. Сейчас актуально говорить о биоэнергоинформационных мерах, отражающих механизм взаимосвязей биофизикоинформационных и вещественно-энергетических процессов в системе, в ноосфере.

Пример. Процесс деления клеток сопровождается излучением квантов энергии с частотами приблизительно до N=1.5´ 1015 гц. Этот спектр можно воспринимать как спектр функционирования словарного запаса клетки - как биоинформационной системы. С помощью этого спектра можно закодировать до 1015 различных биохимических реакций, что примерно в 107 раз больше количества реакций реально протекающих в клетке (их примерно 108), т.е. словарный запас клетки избыточен для эффективного распознавания, классификации, регулировании этих реакций в клетке. Количество информации на 1 квант энергии: I=log21015» 50 бит. При делении клеток, количество энергии, расходуемой на передачу 50 бит информации равна энергии кванта (h - постоянная Планка, n - частота излучения): E=hn =6.62´ 10—27(эрг/cек)´ 0.5´ 1015(сек—1)=3.3´ 10—12 (эрг). При этом, на 1 Вт мощности "передатчика" или на m =107 эрг/сек. может быть передано количество квантов: n=m /E=107 (эрг/сек)/(3.3´ 10—12 (эрг))» 3.3´ 1018 (квант). Общая скорость передачи информации на 1 Вт затрачиваемой клеткой мощности определяется по числу различных состояний клетки N и числу квантов (излучений) m: V=n log2N=3.3´ 1018´ 50» 1.6´ 1020 (бит/сек).


Поделиться с друзьями:

Состав сооружений: решетки и песколовки: Решетки – это первое устройство в схеме очистных сооружений. Они представляют...

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...

Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.029 с.