Навигация:

Главная Случайная страница Обратная связь ТОП Интересно знать Избранные Новые материалы

Топ:

Оценка эффективности инструментов коммуникационной политики: Внешние коммуникации - обмен информацией между организацией и её внешней средой...

Основы обеспечения единства измерений: Обеспечение единства измерений - деятельность метрологических служб, направленная на достижение...

Устройство и оснащение процедурного кабинета: Решающая роль в обеспечении правильного лечения пациентов отводится процедурной медсестре...

Интересное:

Как мы говорим и как мы слушаем: общение можно сравнить с огромным зонтиком, под которым скрыто все...

Мероприятия для защиты от морозного пучения грунтов: Инженерная защита от морозного (криогенного) пучения грунтов необходима для легких малоэтажных зданий и других сооружений...

Уполаживание и террасирование склонов: Если глубина оврага более 5 м необходимо устройство берм. Варианты использования оврагов для градостроительных целей...

Дисциплины:

Автоматизация Антропология Археология Архитектура Аудит Биология Бухгалтерия Военная наука Генетика География Геология Демография Журналистика Зоология Иностранные языки Информатика Искусство История Кинематография Компьютеризация Кораблестроение Кулинария Культура Лексикология Лингвистика Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлургия Метрология Механика Музыкология Науковедение Образование Охрана Труда Педагогика Политология Правоотношение Предпринимательство Приборостроение Программирование Производство Промышленность Психология Радиосвязь Религия Риторика Социология Спорт Стандартизация Статистика Строительство Теология Технологии Торговля Транспорт Фармакология Физика Физиология Философия Финансы Химия Хозяйство Черчение Экология Экономика Электроника Энергетика Юриспруденция

Вопрос 10.Энтропия и избыточность языка.

2017-12-11

295

0.00 из 5.00 0 оценок

Заказать работу

⇐ ПредыдущаяСтр 5 из 17Следующая ⇒

Более глубокие свойства текстов изучаются методами теории информации, разработанной К. Шенноном. Речь идет о “количестве информации”, содержащейся в сообщении. Для выяснения этого необходимо ввести разумную меру количества информации.

К. Шеннон предложил признать формулу прирост информации = устраненной неопределенности, на основании которой неопределенность и информация должны измеряться одной и той же мерой.

Единицу измерения энтропии вероятностной схемы предлагает так называемая теорема кодирования, утверждающая, что любой исход можно закодировать символами 0 и 1 так, что полученная длина кодового слова будет сколь угодно близка сверху к . На основании этого единицей количества информации естественно считать 1 бит.

Мерой среднего количества информации, приходящейся на одну букву открытого текста языка (рассматриваемого как источник случайных текстов), служит величина НА, называемая энтропией языка . Естественно вычислять ее последовательными приближениями: Н0, Н1, где Нх -энтропия позначной модели открытого текста, то есть величина (2), в которой pt совпадает с вероятностью появления буквы а, в открытом тексте.

Термин “избыточность языка” возник в связи с тем, что максимальная информация, которую в принципе могла бы нести каждая буква сообщения, равна Н0 = loga п (где п — число букв в алфавите). Как было отмечено выше, так было бы в случае, если буквы сообщения появлялись случайно и равновероятно. В то же время средняя энтропия буквы в открытом тексте значительно меньше и, следовательно, буква несет меньше информации, чем log^ п. Величина характеризует, таким образом, неиспользованные возможности в передаче информации с помощью текста, а отношение

в некотором смысле показывает, какую часть букв открытого текста можно опустить без потери содержания. Имеется в виду, что потерянная информация будет восстановлена другими буквами сообщения вследствие закономерностей языка.

Согласно исследованиям Б. Б. Пиотровского, имеют место следующие приближения величины :

	HЛ (бит/букву)	RЛ (в процентах)
	Русский язык язык	Франц. язык	Русский язык	Франц. язык
Язык в целом	1,37	1,40	72,6	70,6
Разговорная речь	1,40	1,50	72,0	68,4
Литературный текст	1,19	1,38	76,2	71,0
Деловой текст	0,83	1,22	83,4	74,4

Из приведенной таблицы видно, что языки имеют весьма большую избыточность. Что означает, например, избыточность, составляющая 75%? Это не означает буквально то, что любые 3 из 4 букв текста можно вычеркнуть без потери информации. Более точно это означает, что при оптимальном кодировании текста (при использовании, например, кода Хаффмена, кода Фано или другого оптимального кода его можно сжать до четверти длины без потери информации.

⇐ Предыдущая 1 2 3 456 7 8 9 10 Следующая ⇒

Поделиться с друзьями:

История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...

Двойное оплодотворение у цветковых растений: Оплодотворение - это процесс слияния мужской и женской половых клеток с образованием зиготы...

Состав сооружений: решетки и песколовки: Решетки – это первое устройство в схеме очистных сооружений. Они представляют...

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...