Вопрос 10.Энтропия и избыточность языка. — КиберПедия 

История развития пистолетов-пулеметов: Предпосылкой для возникновения пистолетов-пулеметов послужила давняя тенденция тяготения винтовок...

Эмиссия газов от очистных сооружений канализации: В последние годы внимание мирового сообщества сосредоточено на экологических проблемах...

Вопрос 10.Энтропия и избыточность языка.

2017-12-11 299
Вопрос 10.Энтропия и избыточность языка. 0.00 из 5.00 0 оценок
Заказать работу

Более глубокие свойства текстов изучаются методами теории информации, разработанной К. Шенноном. Речь идет о “количестве информации”, содержащейся в сообщении. Для выяснения этого необходимо ввести разумную меру количества информации.

К. Шеннон предложил признать формулу прирост информации = устраненной неопределенности, на основании которой неопределенность и информация должны измеряться одной и той же мерой.

Единицу измерения энтропии вероятностной схемы предлагает так называемая теорема кодирования, утверждающая, что любой исход можно закодировать символами 0 и 1 так, что полученная длина кодового слова будет сколь угодно близка сверху к . На основании этого единицей количества информации естественно считать 1 бит.

Мерой среднего количества информации, приходящейся на одну букву открытого текста языка (рассматриваемого как источник случайных текстов), служит величина НА, называемая энтропией языка . Естественно вычислять ее последовательными приближениями: Н0, Н1, где Нх -энтропия позначной модели открытого текста, то есть величина (2), в которой pt совпадает с вероятностью появления буквы а, в открытом тексте.

Термин “избыточность языка” возник в связи с тем, что максимальная информация, которую в принципе могла бы нести каждая буква сообщения, равна Н0 = loga п (где п — число букв в алфавите). Как было отмечено выше, так было бы в случае, если буквы сообщения появлялись случайно и равновероятно. В то же время средняя энтропия буквы в открытом тексте значительно меньше и, следовательно, буква несет меньше информации, чем log^ п. Величина характеризует, таким образом, неиспользованные возможности в передаче информации с помощью текста, а отношение

в некотором смысле показывает, какую часть букв открытого текста можно опустить без потери содержания. Имеется в виду, что потерянная информация будет восстановлена другими буквами сообщения вследствие закономерностей языка.

Согласно исследованиям Б. Б. Пиотровского, имеют место следующие приближения величины :

  HЛ (бит/букву) RЛ (в процентах)
  Русский язык язык Франц. язык Русский язык Франц. язык
Язык в целом 1,37 1,40 72,6 70,6
Разговорная речь 1,40 1,50 72,0 68,4
Литературный текст 1,19 1,38 76,2 71,0
Деловой текст 0,83 1,22 83,4 74,4

Из приведенной таблицы видно, что языки имеют весьма большую избыточность. Что означает, например, избыточность, составляющая 75%? Это не означает буквально то, что любые 3 из 4 букв текста можно вычеркнуть без потери информации. Более точно это означает, что при оптимальном кодировании текста (при использовании, например, кода Хаффмена, кода Фано или другого оптимального кода его можно сжать до четверти длины без потери информации.

 


Поделиться с друзьями:

Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...

Особенности сооружения опор в сложных условиях: Сооружение ВЛ в районах с суровыми климатическими и тяжелыми геологическими условиями...

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.01 с.