Технологический аспект естественных языков (ЕЯ), аффиксальные морфемы, морофтактика, активность знаний,морфологический эллипсис, рекурсия. — КиберПедия 

История развития пистолетов-пулеметов: Предпосылкой для возникновения пистолетов-пулеметов послужила давняя тенденция тяготения винтовок...

Индивидуальные и групповые автопоилки: для животных. Схемы и конструкции...

Технологический аспект естественных языков (ЕЯ), аффиксальные морфемы, морофтактика, активность знаний,морфологический эллипсис, рекурсия.

2021-04-18 97
Технологический аспект естественных языков (ЕЯ), аффиксальные морфемы, морофтактика, активность знаний,морфологический эллипсис, рекурсия. 0.00 из 5.00 0 оценок
Заказать работу

Д.Ш. Сулейманов

Институт филологии и искусств, Академия наук РТ

Абстракт

В статье изложен ряд результатов исследования лексико-грамматических признаков татарского языка, представляющий определенный методологический и практический интерес для создания программных средств эффективной обработки естественно-языковой информации.

 

Ключевые слова

Технологический аспект естественных языков (ЕЯ), аффиксальные морфемы, морофтактика, активность знаний,морфологический эллипсис, рекурсия.

Введение

                   

Такие задачи, как компьютерная обработка больших массивов ЕЯ-текстов, ЕЯ-диалог с системой, создание больших банков информации на основе ЕЯ, разработка языков посредников в многоязычной информационной среде приобретают особую актуальность в связи с развитием глобальных компьютерных сетей и формированием больших объемов распределенных данных.

Современные средства накопления и обработки знаний на естественном языке малоэффективны и практически не справляются с такими задачами, как релевантный поиск в распределенных базах данных, извлечение знаний, семантический анализ текстовой информации, прежде всего потому, что они изначально являются неинтеллектуальными, созданы на основе примитивных искусственных языков программирования, практически представляющих собой подмножество флективно-аналитических языков или искусственных конструкций, созданных на их основе.

В связи с этим перспективным представляется разработка нового программного инструментария путем исследования и выявления естественных лексико-грамматических (лексических, морфологических, синтаксических, семантических) конструкций в различных языках, достаточно регулярных и обладающих естественной сложностью, в целях создания на их основе искусственных языков нового поколения. Такие исследования особенно актуальны для тюркских языков, которые характеризуются достаточно сложной и, одновременно, практически регулярной морфологией, позволяющей в одной словоформе закодировать практически целую субъектно-предикативную ситуацию, описываемую в флективно-аналитических языках несколькими предложениями.

Очевидно, наиболее продуктивным представляется исследование естественных языков в следующих трех аспектах: когнитивный, коммуникативный и технологический. Когнитивный аспект языка – это характеристика естественного языка с точки зрения концептуализации действительности, возможностей описания на этом языке картины (модели) мира, эксплицитного представления знаний. Коммуникативный аспект языка отражает потенциал естественного языка для кодирования, приема и передачи, организации диалога. Технологический аспект естественного языка  определяет формальный и концептуальный потенциал языка для реализации средств эффективной обработки, адекватного описания и компактного хранения информации на данном языке, создания эргономичных технических средств и технологий, учитывающих специфику языка (например, частотность букв алфавита при разработке клавиатуры), а также для разработки интеллектуального программного инструментария, программных средств, включая операционные системы. Очевидно, в основе искусственных языков и систем программирования лежат глубинные структуры, соответственно, ментальность естественного языка и, таким образом, эти системы реализуют описательный и вычислительный потенциал соответствующего естественного языка.

Как известно, для систем обработки знаний важными и определяющими их эффективность и интеллектуальность являются следующие характеристики: 1) время обработки информации; 2) память для хранения информации; 3) наличие средств «сжатия» информации, ее компактного хранения; 4) возможность кодирования и обработки нечеткой информации; 5) активность знаний. Причем, первые три параметра определяют эффективность, а параметры 4-5 определяют интеллектуальность систем и технологий.

В нашей статье описываются исследования технологического аспекта татарского языка и раскрывается ряд признаков, определяющих эффективность лексико-грамматической модели татарского языка с точки зрения создания интеллектуальных систем обработки информации.

Последовательность аффиксов, служащая для описания соответствующих значений ролевой ситуации, кодируемой глагольной группой, также как и в случае именной группы, определяется для глагольной словоформы, следующей самой правой в последовательности словоформ, входящих в глагольную группу.

Например, в глагольной группе:

чабып барып карап алып кайттыгызмы? (букв.: бегом+сходив+посмотрев+взяв возвратились ли?) последовательность аффиксов –ты+гыз+мы присоединяется к последней глагольной морфеме кайт (пов. накл., 2 л., ед.ч.) (‘возвратись’), очевидно, являясь некоторой заскобочной цепочкой, завершающей глагольную группу и относящейся ко всей глагольной группе. То есть для смысловой экспликации выражения было бы вполне корректно отобразить глагольную группу (скажем, при разметке текста для машинных применений), используя скобочную запись следующим образом: (чабып ‘бегом’ барып ‘сходив’ карап ‘посмотрев’ алып ‘взяв’ кайт ‘возвратись’)+ты(прош. время)+гыз(3 лиц, мн.ч.)+мы(мод., вопрос.)?

Рассмотрим ряд признаков, определяющих естественную сложность татарской морфологии: 1) возможность присоединения к словоформе определенных аффиксальных морфем, изменяющих тип слова, превращающих, например, именную словоформу в глагольную или в форму прилагательного и наоборот; 2) морфологическое (синтетическое) задание признаков модальности, настроения, эмоционально-личностного отношения к ситуации, объекту или процессу, описываемым данной словоформой; 3) контекстное разнообразие значений аффикса.

Известно, что именная группа, как правило, кодирует некую семантическую ролевую ситуацию, а глагольная группа – контекстные отношения над этими ролями. Таким образом, возможность перехода с именной формы к глагольной и, наоборот, с глагольной формы к именной, через присоединение соответствующих аффиксов, позволяет описывать одновременно в пределах одной словоформы как сложную ролевую ситуацию, так и контекстные отношения между семантическими ролями.

Тем самым обеспечивается компактность описания и хранения информации. Синтетический, аффиксальный способ словоизменения обеспечивает кодирование в рамках одной словоформы некоторого значения, описываемого на флективно-аналитических языках (например, на английском) несколькими словосочетаниями и даже предложениями.

В качестве примера реализации признака (1) рассмотрим следующую словоформу, являющуюся корректной для татарского языка: татар/ча/ла/штыр/гала/штыр/у/чы/лар/дагы/ныкы/лар/га/мыни? (Примечание: здесь разделительные косые - «слэш» расставлены только для удобства зрительного восприятия словоформы, в реальной словоформе их нет) (перевод: разве тем (к тем/на тех), что принадлежит тому (той), что на тех, кто (что) время от времени занимаются татаризацией (переводом на татарский язык)?). Данная словоформа имеет следующую структуру: татар (имя сущ.) + ча (наречие) + ла (глагол) + штыр (глагол, залог) + гала (глагол, залог)+штыр (глагол, залог)+у (субстантив., имя действ.)+чы (имя сущ.) + лар (множ.) + дагы (субстантив., локатив) + ныкы (субстантив., притяжат.) + лар (множ.) + га (директив) + мыни (вопрос, удивление).  

Возможность аффиксального задания признака модальности (2), в отличие от других языков, в которых данный признак отображается либо эмоционально-просодически, либо с помощью дополнительной словоформы, также является свойством, способствующим адекватной интерпретации значения словоформы и минимизирующим время его распознавания.  

Третий признак сложности татарской морфологии определяет контекстное разнообразие значений аффикса. Практически все аффиксальные морфемы обладают свойством полисемии. В частности, как показывают наши исследования [3], аффиксальная морфема –ГА имеет порядка 20 значений, то есть используется для кодирования до 20 различных контекстных значений.  В таблице 1 показано несколько примеров с аффиксом –ГА.

Таблица 1

Кодируемое значение   Пример
1. Исполнитель процесса + укытучыга хат укыту ('дать учителю прочитать письмо'), т.е. учитель читает письмо
2. Объект    
2.1. Прямой  
2.2. Косвенный + укучыга кушу ('поручить ученику')
3. Цель процесса + утынга бару ('ехать за дровами')
4. Причина совершения процесса + матурлыкка соклану ('восхищаться красотой')
5. Время совершения процесса + биш атнага кайту (приехать на пять недель')
6. Место  совершения процесса    
6.1. Конечный  пункт назначения + урманга бару ('идти в лес')
6.2. Исходный пункт  
7. Способ совершения процесса + барлык көчкә чабу ('бежать изо-всех сил')
8. Мера, степень процесса, действия    
8.1. Мера процесса + бер атнага кайту ('вернуться на неделю')
8.2. Мера объекта процесса + ун сумга алу ('купить на десять рублей').
9. Средство достижения цели + акчага алу (купить за деньги)

Явление рекурсии определяется как возможность циклического порождения нового значения путем последовательного применения одной и той же «формулы», т.е. повторного присоединения одной и той же аффиксальной морфемы.

Такими свойствами обладают аффиксальные морфемы –ДАгЫ (локатив2, место-временной падеж 2) и –нЫкЫ (притяжат.падеж), которые можно назвать также аффиксами неопределенности, т.е. аффиксами, придающими неопределенность лексемам, к которым присоединяются.

Например, пусть задана лексема тау (‘гора’). Присоединение аффикса –дагы порождает новые объекты или свойства, являющиеся неопределенными: таудагы – ‘нечто на горе’; таудагыдагы – ‘нечто на нечто на горе’; тауныкы – ‘то, что принадлежит горе’; тауныкыныкы – ‘то, что принадлежит тому, что принадлежит горе’.

По такой формуле может быть образована словоформа практически неограниченной длины. Естественно, такие длинные последовательности морфем в речи практически не используются. Это, прежде всего, как мы считаем, связано с проблемами глубины памяти, удобства общения между людьми. Тем не менее, подобное словоизменение является совершенно корректной с точки зрения грамматики татарского языка и словоформа, образованная присоединением последовательности любой длины, гипотетически всегда имеет смысл, конкретное значение приобретается при «погружении» словоформы в определенный контекст.

Приведем пример со следующей словоформой: тауныкындагыныкыныкындагы, которая однозначно раскладывается на следующие составляющие - тау+дагы+ныкы+ндагы+ныкы+ндагы - ‘тау’ (имя сущ.+локатив2+притяж.пад.+ локатив2+ притяж.пад. +локатив2).

Данная словоформа означает следующее:

‘нечто, находящееся на/в нечто, принадлежащее нечто, находящееся на/в нечто, принадлежащее нечто, находящееся на/в горе’.

Нетрудно заметить, что, задавая параметры после каждой морфемы эксплицитно,  в явном виде, можно добиться определенности значения словоформы. То есть словоформа, после подстановки конкретных значений вместо аффиксов неопределенности, также приобретает конкретное значение. В реальных случаях, в речи,  такие параметры наполняются конкретным значением из контекста речи, дискурса.

Рассмотрим следующий пример для иллюстрации изложенного утверждения. Пусть после каждого аффикса неопределенности стоят параметры: тау+дагы(x1)+ндагы(x2)+ныкы(x3)+ныкы(x4)+ндагы(x5)+ныкы(х6), где xi – контекстные объекты, т.е. объекты, приобретающие конкретное значение либо из контекста, либо их задает пользователь (i=1,6). Таким образом, придавая значения параметрам: x1= мәгәрә (“пещера”), x2= аю (“медведь”), x3= лапа («аяк»), x4= тырнак («коготь»), x5= бал («мед»), мы получаем следующее контекстное значение: «нечто (значение х6, придаваемое параметру последним аффиксом, осталось неопределенным), что присуще меду, что на когте, что принадлежит лапе, что принадлежит медведю, что находится в пещере, что находится на горе».

На месте корневой морфемы также может стоять неопределенный параметр: Х+дагы(x1) +ндагы(x2) +ныкы(x3) +ныкы(x4) +ндагы(x5) +ныкы(х6). При этом на месте Х может быть любое понятие, задаваемое имплицитно, и раскрываемое через контекст, либо задаваемое эксплицитно (т.е. явно) пользователем. Например, для нашего случая: Х=тау (‘гора’). В речи, зачастую, в качестве Х используется местоимение «ни», выступающее как метаслово, интенсионал, конкретное значение которого приобретается непосредственно из контекста: ни/дәге/ндәге/неке/неке/ндәге/неке.  

Рассмотрим проявление свойства рекурсии в языке на примере предложений.

Кыр куяны колакларындагы кара тапларда матурлык бар. Урман куяныныкылардагыларныкыннан башкарак. (‘Есть красота в черных пятнах на ушах полевых зайцев. Несколько иная, чем та красота, которая в черных пятнах на ушах лесного зайца’).

Здесь в словоформе куяныныкылардагыларныкыннан = куяны(‘его/ее заяц’)+ныкы(х0)+лар(множ.)+дагы(х1)+лар(множ.)+ныкы(х2)+ннан(исх.падеж) ряд понятий (х0, х1, х2) задан имплицитно, однако, однозначно раскрывается по предыдущему контексту (т.е. по пресуппозиции): х0 = колак (‘ухо’); х1 = кара тап(‘черное пятно’); х2 = матурлык(‘красота’).

Второе предложение при полном эксплицитном написании выглядит следующим образом: Урман куяны колакларындагы кара таплардагы матурлыктан башкарак (‘Несколько иная, чем та красота, которая в черных пятнах на ушах лесного зайца’).

Даже на этом коротком примере элементарный расчет показывает, что применение рекурсивных аффиксов приводит к сжатию информации и существенной экономии памяти. В случае применения рекурсии в приведенном примере количество слов сокращается в два с лишним раза и число используемых символов уменьшается на 23 (в варианте без рекурсии: 7 слов, 64 знака; в варианте с рекурсией: 3 слова, 41 знак). При этом по контексту осуществляется достаточно простая и однозначная экспликация неопределенностей, которые известны в лингвистике как явление анафоры. В нашем случае этот тип анафоры можно назвать анафорой рекурсии.

S воздействие S (рефлексия)

2) -Ыш:

 ташлаш – ташла+ш (‘помогай бросать/бросай вместе’)

Участники действия: субъект S, объект-актор Ai,j, объект-предмет Ok, где i – номер группы объекта-актора, i ≥ 1; j – число участников в группе i, j≥ 1.

Ролевая ситуация:

S воздействие (помощь) Ai,j и (S & Ai,j) воздействие (бросить) Ok.

3) -т, -ДЫр:

ташлат – ташла+т (‘сделай так, чтобы бросил/бросили’)

Ролевая ситуация:

S воздействие Ai,j -> Ai,j воздействие (бросить) Ok.  Здесь стрелка -> означает импликацию.

ташлаттыр – ташла+т+тыр (‘сделай так, чтобы сделали так, чтобы бросили’)

Ролевая ситуация:

S воздействие Ai,j -> Ai,j воздействие Al,m -> Al,m воздействие (бросить) Ok.

ташлаттырт - ташла+т+тыр+т (‘сделай так, чтобы сделали так, чтобы сделали так, чтобы бросили’)

Ролевая ситуация:

S воздействие Ai,j -> Ai,j воздействие Al,m -> Al,m воздействие As,t -> As,t воздействие (бросить) Ok.

По такой формуле, подставляя новые определенные аффиксы, можно создавать все новые и новые ролевые ситуации и описывать процессы на лексическом уровне. Например, добавление аффикса –Ыл к последней полученной словоформе: ташлаттыртыл превращает сам субъект в объект-предмет, объект воздействия, т.е. S= Ok.

Получается следующая ролевая ситуация с рефлексией:

S воздействие Ai,j -> Ai,j воздействие Al,m -> Al,m воздействие As,t -> As,t воздействие (бросить) S.

Активность знаний

 

Известно, что английские предложения строятся по схеме S-V-O (subject-verb -object: субъект-глагол-объект), а татарские - по схеме: S-O-V. То есть, англичанин, если говорит, например, о намерении сходить в кино, сначала скажет, пойдет или не пойдет, и только после этого выдает информацию – куда, какой, зачем, с кем, когда и т.д. (“I’ll go to the cinema “Atilla” with my friend afternoon”). Очевидно, здесь действие управляет ситуацией. После того, как высказано однозначно намерение субъекта, дальнейшая информация становится пассивной, практически не влияет на выбор способа действия или усложняет его. А в татарском языке сначала дается информация и ее анализ, и только после этого, возможно, с учетом реакции слушающего, определяется - положительное или отрицательное, само действие. («Мин дустым белән төштән соң буласы “Атилла” киносына барам/бармыйм» - буквально: ‘Я со своим другом после обеда на фильм «Атилла» пойду/не пойду’).

В системах искусственного интеллекта это называется активностью знаний, что является одним из важных признаков интеллектуальности системы [2]. Для интеллектуальных систем естественным и основополагающим является стиль размышления: анализ-действие, размышление-цели-алгоритмы, а не командный стиль: действие-анализ, алгоритм-цель, как это реализовано в современных технологиях, языках и системах программирования,  основанных на менталитете английского языка. То есть в ситуации, описываемой системой, основанной на менталҗности татарского языка, сначала анализируется, обрабатывается информация, а затем осуществляется некое действие - подбирается соответствующая адекватная модель представления знаний или выбираются соответствующие алгоритмы и схемы реализации, оптимальность и эффективность которых во многом определяется корректностью и полнотой анализа информации. Это можно назвать событийным или ситуационным программированием.

Такие возможности, являющиеся естественными для татарского языка и закрепленные в грамматике татарского языка, позволяют ставить задачу о разработке интеллектуальных программ накопления и извлечения знаний в глобальных компьютерных сетях, что, как известно, становится сверхактуальной задачей в современном информационном мире.

 

Заключение

Лексико-грамматические возможности описания, запоминания, хранения, обработки и передачи информации на естественном языке являются теми технологическими признаками, которые позволяют на поверхностном уровне вербализовать, фиксировать и отображать эксплицитно глубинные стереотипы, когнитивные модели и механизмы, описывающие ситуации и процессы в модели мира.

В данной статье на примере татарского языка рассмотрен ряд лексико-грамматических признаков, определяющих технологичность языка, представляющих определенный методологический и практический интерес для создания программных средств эффективной обработки естественно-языковой информации.

Как показывают исследования [1, 3], татарский язык, как агглютинативный язык, обладающий регулярной морфологией и вместе с тем естественной сложностью, разрешаемой контекстно, является эффективным инструментом для создания интеллектуальных систем обработки информации. В силу минимальных показателей временных и емкостных оценочных функций для генерации и анализа цепочек татарских словоформ (за счет регулярности) достигается эффективность при накоплении и обработке информации на татарском языке. Компактность передачи смысла текста на поверхностном, лексическом, уровне объясняется также возможностями языка синтетически, т.е. словоформой, кодировать смысл, который для других языков (английский, русский) формируется аналитически, чаще всего несколькими предложениями. Агглютинативность языка, алгоритмические закономерности, минимальность исключений, наличие мощного мета-аппарата, достаточная жесткость синтаксиса позволяют ставить задачу о построении языка промежуточной трансляции, т.е. языка-посредника на базе татарского языка, и даже разработки новых операционных систем на основе новой идеологии.

Литература

1. Сулейманов Д.Ш., Гатиатуллин А.Р. Структурно-функциональная компьютерная модель татарских морфем. – Казань, Изд-во «Фэн», 2003. - 220 с.

2. Поспелов Д.А., Осипов Г.С. Прикладная семиотика. (Из неизданных книг). Доступно: http://raii.org/library/ainews/1999/1/OSPOS.ZIP

3. Suleymanov D.S. Natural possibilities of the Tatar morphology as a formal base of the NLP // In Proceedings of the First International Workshop “Computerisation of Natural Languages” (Varna, Sept. 3-7, 1999). –Sofia (Bulgaria): Information Services Plc, 1999. -P.113.

 


[1] Работа выполнена при поддержке гранта РФФИ №        

Д.Ш. Сулейманов

Институт филологии и искусств, Академия наук РТ

Абстракт

В статье изложен ряд результатов исследования лексико-грамматических признаков татарского языка, представляющий определенный методологический и практический интерес для создания программных средств эффективной обработки естественно-языковой информации.

 

Ключевые слова

технологический аспект естественных языков (ЕЯ), аффиксальные морфемы, морофтактика, активность знаний,морфологический эллипсис, рекурсия.

Введение

                   

Такие задачи, как компьютерная обработка больших массивов ЕЯ-текстов, ЕЯ-диалог с системой, создание больших банков информации на основе ЕЯ, разработка языков посредников в многоязычной информационной среде приобретают особую актуальность в связи с развитием глобальных компьютерных сетей и формированием больших объемов распределенных данных.

Современные средства накопления и обработки знаний на естественном языке малоэффективны и практически не справляются с такими задачами, как релевантный поиск в распределенных базах данных, извлечение знаний, семантический анализ текстовой информации, прежде всего потому, что они изначально являются неинтеллектуальными, созданы на основе примитивных искусственных языков программирования, практически представляющих собой подмножество флективно-аналитических языков или искусственных конструкций, созданных на их основе.

В связи с этим перспективным представляется разработка нового программного инструментария путем исследования и выявления естественных лексико-грамматических (лексических, морфологических, синтаксических, семантических) конструкций в различных языках, достаточно регулярных и обладающих естественной сложностью, в целях создания на их основе искусственных языков нового поколения. Такие исследования особенно актуальны для тюркских языков, которые характеризуются достаточно сложной и, одновременно, практически регулярной морфологией, позволяющей в одной словоформе закодировать практически целую субъектно-предикативную ситуацию, описываемую в флективно-аналитических языках несколькими предложениями.

Очевидно, наиболее продуктивным представляется исследование естественных языков в следующих трех аспектах: когнитивный, коммуникативный и технологический. Когнитивный аспект языка – это характеристика естественного языка с точки зрения концептуализации действительности, возможностей описания на этом языке картины (модели) мира, эксплицитного представления знаний. Коммуникативный аспект языка отражает потенциал естественного языка для кодирования, приема и передачи, организации диалога. Технологический аспект естественного языка  определяет формальный и концептуальный потенциал языка для реализации средств эффективной обработки, адекватного описания и компактного хранения информации на данном языке, создания эргономичных технических средств и технологий, учитывающих специфику языка (например, частотность букв алфавита при разработке клавиатуры), а также для разработки интеллектуального программного инструментария, программных средств, включая операционные системы. Очевидно, в основе искусственных языков и систем программирования лежат глубинные структуры, соответственно, ментальность естественного языка и, таким образом, эти системы реализуют описательный и вычислительный потенциал соответствующего естественного языка.

Как известно, для систем обработки знаний важными и определяющими их эффективность и интеллектуальность являются следующие характеристики: 1) время обработки информации; 2) память для хранения информации; 3) наличие средств «сжатия» информации, ее компактного хранения; 4) возможность кодирования и обработки нечеткой информации; 5) активность знаний. Причем, первые три параметра определяют эффективность, а параметры 4-5 определяют интеллектуальность систем и технологий.

В нашей статье описываются исследования технологического аспекта татарского языка и раскрывается ряд признаков, определяющих эффективность лексико-грамматической модели татарского языка с точки зрения создания интеллектуальных систем обработки информации.


Поделиться с друзьями:

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...

Эмиссия газов от очистных сооружений канализации: В последние годы внимание мирового сообщества сосредоточено на экологических проблемах...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.074 с.