Закон Ципра. Частотно — ранговое распределение лексем. — КиберПедия 

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...

История развития пистолетов-пулеметов: Предпосылкой для возникновения пистолетов-пулеметов послужила давняя тенденция тяготения винтовок...

Закон Ципра. Частотно — ранговое распределение лексем.

2017-06-29 788
Закон Ципра. Частотно — ранговое распределение лексем. 0.00 из 5.00 0 оценок
Заказать работу

В 1916 году ученый Эсту составил частотный словарь (слова в порядке убывания). Для него правая колонка (числа) представляла больший интерес, чем колонка со словами.

Если частоту слова умножить на ранг (порядковый номер в общем частотном списке), то произведения меняются незначительно (это величина постоянная).

Помимо того, что график убывает, наблюдается связь между рангом и частотой (закон Цифра)

(Пояснение: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее)

1940- выходит основная работа Цифра

Ядро частот словаря и хвост.

Между ними — зона среднечастотных единиц.

Закон Цифра действует для выборок объемом 22000. Если больше, то точно не столь высока

Длина слова.

Распределение слов по длине: важный прогностический критерий.

Длина слова – важный количественный показатель структуры словаря и текста.

Длина связана с характерами слова:

- частотностью;

- полисемантичностью;

- возрастом.

В тексте за основу берется словоупотребление, а в словаре – словоформы.

Типы единиц измерения длины слова :
1. графические

2. фонетические

3. семантические

Графический:

Буквы; в иероглифических языках – другие символы.

Фонетический:

Звуки, фонемы и слоги.

Разница между количеством букв и фонем.

Семантический:

По морфемам. Их количество можно установить с помощью фиксированного набора критериев.

Слоги, буквы - самые простые единицы изменения длины.

___________ (здесь заканчиваются типы единиц измерения)

Проблема источников данных: до сих пор использовались тексты и подсчитывалась длина словоформ.

Длина слова может быть измерена по словарям.

Данные из текстов, обычных словарей, частотных словарей.

Закон Менцерата: существует отрицательная корреляция между длиной слов, измеренной в слогах, и длиной слогов, измеренной в фонемах.

Полисемия слова

семантический объем слова

Лексическая подсистема

Каково распределение лексических единиц о их семантическому объему? как связано с частотой\употребительностью слова?

Значение - понятие расплывчатое. Как тогда говорить о многозначности?

Лексикографы описывали значение отдельных слов, стоя на разных теоретических позициях. Несмотря на это, результаты их трудов довольно схожи.

Толковый словарь:

значение, оттенки значений,

ссылки

Членение слова на значения опирантся на интуицию лексикографа.

Как значение связано с употребительностью?

Части толкований могут равноправными, могут быть подчиненные фрагменты: подзначения, оттенки.

19.04. 2016

Языковая диахрония и стилистика в квантитативном измерении

Закономерности в языке могут быть синхронические и диахронические.

Синхрония — изучение отношений между единицами языка в одну эпоху. Например, в русском языке на конце слова звонкие согласные чередуются с глухими.

Диахрония — изучение процессов, исторически присущих языку. Например, в русском языке все звонкие согласные на конце слова превратились в глухие (согласные [з], [д] изначально произносились звонко, но медленно шёл процесс оглушения).

Альтман

Course – направленность

Все процессы носят стохастический характер.

Предмет рассмотрения языковой диахронии – всё, что изменяется в языке.

Язык текста остаётся неизменным, но сам язык может изменяться! Меняется лексика языка, лексика неуклонно растёт.

Стилистика

Квантитативная лингвистика применяется для выработки объективных методов оценки текстов.

Критерии:

· Лексическое богатство текста – отношение числа слов к объёму текста.

· Объем словаря – количество различных слов в тексте.

Индекс лексического богатства – отношение количества разных словоформ или лексем к объёму текста. Обозначается TTR – token/type relation (ratio) и выводится по формуле L\N (L – лексемы, N – объем текста).

Прямое сравнение индексов двух текстов возможно только при условии их одинакового объёма. Индекс не является эстетическим критерием.

mF – число слов с F частотой встречаемости.

Отличия текстов гуманитарной направленности от технических:

· неточность, размытость понятий

· преобладание качественных характеристик объектов

· ограниченность возможности проведения экспертизы

· большой объем исходной информации

Идиостиль – представление о системе смыслов художественного текста, отражающей концептуальный мир автора; система способов репрезентации доминантных смыслов концептуальной картины мира автора.

В задачи автоматической обработки текста входят:

· машинный перевод

· автоматизированное реферирование текста

· информационный поиск

Задача лингвиста состоит в формализации текстового анализа.

При исследовании стилистики статистические методы позволяют:

1. свести до минимума субъективизм исследователя, количественно оценить результат и определить его достоверность;

2. чем больше объем текста – тем объективнее результат анализа;

- низкая повторяемость элементов увеличивает статистический прогресс

- при создании большого текста труднее подменить авторство, вероятность стилизации уменьшается

3. количественное исследование текста становится более объективным, если оно имеет сравнительный характер.

Лексические универсалии

Суммарный лингвистический портрет автора.

26.04.16


Поделиться с друзьями:

Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...

Таксономические единицы (категории) растений: Каждая система классификации состоит из определённых соподчиненных друг другу...

Организация стока поверхностных вод: Наибольшее количество влаги на земном шаре испаряется с поверхности морей и океанов (88‰)...

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.011 с.