История развития пистолетов-пулеметов: Предпосылкой для возникновения пистолетов-пулеметов послужила давняя тенденция тяготения винтовок...
Эмиссия газов от очистных сооружений канализации: В последние годы внимание мирового сообщества сосредоточено на экологических проблемах...
Топ:
Когда производится ограждение поезда, остановившегося на перегоне: Во всех случаях немедленно должно быть ограждено место препятствия для движения поездов на смежном пути двухпутного...
Генеалогическое древо Султанов Османской империи: Османские правители, вначале, будучи еще бейлербеями Анатолии, женились на дочерях византийских императоров...
Характеристика АТП и сварочно-жестяницкого участка: Транспорт в настоящее время является одной из важнейших отраслей народного хозяйства...
Интересное:
Берегоукрепление оползневых склонов: На прибрежных склонах основной причиной развития оползневых процессов является подмыв водами рек естественных склонов...
Инженерная защита территорий, зданий и сооружений от опасных геологических процессов: Изучение оползневых явлений, оценка устойчивости склонов и проектирование противооползневых сооружений — актуальнейшие задачи, стоящие перед отечественными...
Как мы говорим и как мы слушаем: общение можно сравнить с огромным зонтиком, под которым скрыто все...
Дисциплины:
2017-12-11 | 299 |
5.00
из
|
Заказать работу |
|
|
Более глубокие свойства текстов изучаются методами теории информации, разработанной К. Шенноном. Речь идет о “количестве информации”, содержащейся в сообщении. Для выяснения этого необходимо ввести разумную меру количества информации.
К. Шеннон предложил признать формулу прирост информации = устраненной неопределенности, на основании которой неопределенность и информация должны измеряться одной и той же мерой.
Единицу измерения энтропии вероятностной схемы предлагает так называемая теорема кодирования, утверждающая, что любой исход можно закодировать символами 0 и 1 так, что полученная длина кодового слова будет сколь угодно близка сверху к . На основании этого единицей количества информации естественно считать 1 бит.
Мерой среднего количества информации, приходящейся на одну букву открытого текста языка (рассматриваемого как источник случайных текстов), служит величина НА, называемая энтропией языка . Естественно вычислять ее последовательными приближениями: Н0, Н1, где Нх -энтропия позначной модели открытого текста, то есть величина (2), в которой pt совпадает с вероятностью появления буквы а, в открытом тексте.
Термин “избыточность языка” возник в связи с тем, что максимальная информация, которую в принципе могла бы нести каждая буква сообщения, равна Н0 = loga п (где п — число букв в алфавите). Как было отмечено выше, так было бы в случае, если буквы сообщения появлялись случайно и равновероятно. В то же время средняя энтропия буквы в открытом тексте значительно меньше и, следовательно, буква несет меньше информации, чем log^ п. Величина характеризует, таким образом, неиспользованные возможности в передаче информации с помощью текста, а отношение
|
в некотором смысле показывает, какую часть букв открытого текста можно опустить без потери содержания. Имеется в виду, что потерянная информация будет восстановлена другими буквами сообщения вследствие закономерностей языка.
Согласно исследованиям Б. Б. Пиотровского, имеют место следующие приближения величины :
HЛ (бит/букву) | RЛ (в процентах) | |||
Русский язык язык | Франц. язык | Русский язык | Франц. язык | |
Язык в целом | 1,37 | 1,40 | 72,6 | 70,6 |
Разговорная речь | 1,40 | 1,50 | 72,0 | 68,4 |
Литературный текст | 1,19 | 1,38 | 76,2 | 71,0 |
Деловой текст | 0,83 | 1,22 | 83,4 | 74,4 |
Из приведенной таблицы видно, что языки имеют весьма большую избыточность. Что означает, например, избыточность, составляющая 75%? Это не означает буквально то, что любые 3 из 4 букв текста можно вычеркнуть без потери информации. Более точно это означает, что при оптимальном кодировании текста (при использовании, например, кода Хаффмена, кода Фано или другого оптимального кода его можно сжать до четверти длины без потери информации.
|
|
Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...
Особенности сооружения опор в сложных условиях: Сооружение ВЛ в районах с суровыми климатическими и тяжелыми геологическими условиями...
Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...
Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...
© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!