Вопрос 10.Энтропия и избыточность языка. — КиберПедия 

Опора деревянной одностоечной и способы укрепление угловых опор: Опоры ВЛ - конструкции, предназначен­ные для поддерживания проводов на необходимой высоте над землей, водой...

История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...

Вопрос 10.Энтропия и избыточность языка.

2017-12-11 295
Вопрос 10.Энтропия и избыточность языка. 0.00 из 5.00 0 оценок
Заказать работу

Более глубокие свойства текстов изучаются методами теории информации, разработанной К. Шенноном. Речь идет о “количестве информации”, содержащейся в сообщении. Для выяснения этого необходимо ввести разумную меру количества информации.

К. Шеннон предложил признать формулу прирост информации = устраненной неопределенности, на основании которой неопределенность и информация должны измеряться одной и той же мерой.

Единицу измерения энтропии вероятностной схемы предлагает так называемая теорема кодирования, утверждающая, что любой исход можно закодировать символами 0 и 1 так, что полученная длина кодового слова будет сколь угодно близка сверху к . На основании этого единицей количества информации естественно считать 1 бит.

Мерой среднего количества информации, приходящейся на одну букву открытого текста языка (рассматриваемого как источник случайных текстов), служит величина НА, называемая энтропией языка . Естественно вычислять ее последовательными приближениями: Н0, Н1, где Нх -энтропия позначной модели открытого текста, то есть величина (2), в которой pt совпадает с вероятностью появления буквы а, в открытом тексте.

Термин “избыточность языка” возник в связи с тем, что максимальная информация, которую в принципе могла бы нести каждая буква сообщения, равна Н0 = loga п (где п — число букв в алфавите). Как было отмечено выше, так было бы в случае, если буквы сообщения появлялись случайно и равновероятно. В то же время средняя энтропия буквы в открытом тексте значительно меньше и, следовательно, буква несет меньше информации, чем log^ п. Величина характеризует, таким образом, неиспользованные возможности в передаче информации с помощью текста, а отношение

в некотором смысле показывает, какую часть букв открытого текста можно опустить без потери содержания. Имеется в виду, что потерянная информация будет восстановлена другими буквами сообщения вследствие закономерностей языка.

Согласно исследованиям Б. Б. Пиотровского, имеют место следующие приближения величины :

  HЛ (бит/букву) RЛ (в процентах)
  Русский язык язык Франц. язык Русский язык Франц. язык
Язык в целом 1,37 1,40 72,6 70,6
Разговорная речь 1,40 1,50 72,0 68,4
Литературный текст 1,19 1,38 76,2 71,0
Деловой текст 0,83 1,22 83,4 74,4

Из приведенной таблицы видно, что языки имеют весьма большую избыточность. Что означает, например, избыточность, составляющая 75%? Это не означает буквально то, что любые 3 из 4 букв текста можно вычеркнуть без потери информации. Более точно это означает, что при оптимальном кодировании текста (при использовании, например, кода Хаффмена, кода Фано или другого оптимального кода его можно сжать до четверти длины без потери информации.

 


Поделиться с друзьями:

История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...

Двойное оплодотворение у цветковых растений: Оплодотворение - это процесс слияния мужской и женской половых клеток с образованием зиготы...

Состав сооружений: решетки и песколовки: Решетки – это первое устройство в схеме очистных сооружений. Они представляют...

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.006 с.