ИПЯ как разновидность искусственных языков — КиберПедия 

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...

Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...

ИПЯ как разновидность искусственных языков

2018-01-03 1251
ИПЯ как разновидность искусственных языков 0.00 из 5.00 0 оценок
Заказать работу

 

Языки делятся на естественные и искусственные. Естественный язык – обычное средство коммуникации и общения. Искусственные языки разработаны для специальных видов коммуникаций, решения определенных задач: музыка (ноты), азбука Морзе, стенографическое письмо, язык эсперанто и т.д. Для записи информации в искусственных языках применяются особые знаковые системы для записи информации.

Информационно-поисковый язык – это основной компонент любой информационно-поисковой системы. Информационно-поисковые языки созданы специально для выражения содержания документов, запросов, описания фактов с целью последующего поиска. Существует множество видов ИПЯ, обеспечивающих поиск информации, документов, конкретных фактов. Кроме этого, информационно-поисковый язык используется для характеристики этой же системы. Таким образом, от ИПЯ зависит качество и разнообразие поисковых характеристик информационно-поисковой системы.

Особенности естественных языков не позволяют использовать их для индексирования. К числу таких особенностей относятся:

1. Избыточность, предполагающая наличие незначащих для поиска слов (союзы, предлоги, междометия).

2. Синонимия, украшающая естественный язык, но с точки зрения индексирования ведущая к снижению точности в выдаче информации.

Синонимы подразделяются на лексические (слова и словосочетания), заменяющие друг друга, например: «теплица» (оранжерея), «яды» (токсины); логические синонимы, раскрывающие значение того или иного термина, например, «наука о знаках» – «семантика».

Индексатор должен стремиться к комплексированию под одним термином всех документов, соответственного содержания.

3. Полисемия, характеризующаяся многозначностью слов, наличие у единицы языка более чем одного значения («тяжелый» – имеющий большой вес и трудный; «кипеть» – состояние жидкости и проявляться с силой; «источник» – струя жидкости, вытекающая из земли и то, что дает начало чему-либо).

4. Омонимия, предусматривающая одинаковое звучание и написание разных слов («ключ» – родник или средство для открывания замка; «коса» – сельскохозяйственный инструмент, или женская прическа, или полоса суши). Смысл омонимов необходимо выявлять через контекст.

Эффективное индексирование обеспечивается следующими признаками информационно-поискового языка:

1. Однозначность – каждая запись на ИПЯ должна иметь один смысл, а документы с одинаковым смыслом должны получать единообразное выражение на ИПЯ.

2. Эксплицитность (явное) – выражение полезных для поиска смысловых отношений между словами. Это достигается при помощи ссылочно-справочного аппарата.

3. «Гостеприимство ИПЯ» – возможность корректировки и пополнения ИПЯ.

4. Удобство использования, которое предполагает мнемоничность (запоминание), а также компактность ИПЯ.

5. Выразительность (семантическая сила ИПЯ) – способность языка идентифицировать предмет: однозначно его подавать, различать мелкие особенности и описывать с различной степенью детализации. Семантическая сила языка тем богаче, чем шире его словарный запас и словообразовательные возможности.

Основными структурными составляющими любого ИПЯ являются алфавит, лексика, грамматика (парадигматические и синтагматические отношения между понятиями).

Алфавит ИПЯ – это знаковая природа языка. В него входят буквы естественного языка, арабские и римские цифры, знаки пунктуации, несущие смысловую нагрузку [. (точка), (запятая) «» (кавычки) () (круглые скобки): (двоеточие) и т.д.], знаки арифметических операций [ + (присоединение) / (косая черта) = (знак равенства)] и другие специальные знаки. Алфавит может быть представлен только буквами или только цифрами (однородная индексация, нотация) или буквами и цифрами одновременно (смешанная индексация, нотация).

Лексика (словарный запас ИПЯ) – это лексические единицы (неделимые структурные единицы), несущие определенную смысловую нагрузку.

Лексическая единица – это последовательность букв, цифр, специальных символов, принятая для обозначения какого-либо понятия. Лексическая единица может выражать в единстве содержание и форму документа. Лексические единицы в разных ИПЯ имеют свои названия, например, в классификационных ИПЯ – это классификационные индексы, в алфавитно-предметных классификациях – это предметные рубрики, в фасетных классификациях – это изолаты, в дескрипторных ИПЯ – дескрипторы.

Анализ лексики любого ИПЯ можно осуществлять на основе трех параметров: способа задания лексики, уровня интеграции, способа построения лексической единицы.

В зависимости от способа задания лексики различают ИПЯ с контролируемой и неконтролируемой лексикой. Исходя из этого, ИПЯ делятся на предкоординатные и коорднатные.

В ИПЯ лексические единицы (ключевые слова, предметные рубрики, классификационные индексы) связываются координатной (соподчиненной связью) еще до использования ИПЯ при индексировании документа или информационного запроса.

Под координатой понимается связь рубрик, индексов, слов, терминов, дескрипторов, используемых для раскрытия смыслового содержания документа или запроса.

Информационно-поисковые языки, в которых лексические единицы предварительно связаны до индексирования, называются предкоординатными языками. При использовании предкоординатного информационно-поискового языка содержание документа или запроса сравнивается с уже имеющейся классификационной и/или предметной рубрикой, которую можно рассматривать как заранее построенную фразу.

К предкоординатным ИПЯ относятся информационно-поисковые языки классификационного типа: перечислительные и комбинационные ИПЯ иерархического типа, алфавитно-предметные и фасетные ИПЯ.

В основе ИПЯ классификационного типа лежит систематическая классификация понятий, отражающая смысловые отношения между ними. В систематических классификациях лексические единицы задаются системой понятий, выраженных словами, словосочетаниями и предложениями.

В языках предкоординатного типа лексика контролируется. Индексирование осуществляется на основе таблиц классификаций (ББК, УДК, рубрикаторов), словарей предметных рубрик. Таблицы и словари разработаны заранее и существуют уже до момента индексирования. В ИПЯ предкоординатного типа может использоваться и естественный язык. Например, предметизационный ИПЯ строится на основе естественного языка, но его применение обязательно ограничено введением специальных правил.

К языкам координатного типа принадлежат языки ключевых слов, дескрипторные ИПЯ. В основу информационно-поискового языка дескрипторного типа положен алфавитный перечень лексических единиц, выраженных словами и словосочетаниями естественного языка.

ИПЯ с лексическими единицами, заданными только перечнем слов и словосочетаний, из которых по определенным правилам в процессе индексирования или поиска строится поисковый образ документа, называются посткоординатными ИПЯ.

При использовании посткоординатного ИПЯ содержание документа описывается ключевыми словами, взятыми из текста, а затем они контролируются по словарю и включаются в поисковый образ документа. Точность отражения содержания документа при использовании посткоординируемых информационно-поисковых языков значительно выше, чем при использовании предкоординируемых ИПЯ. К языкам этого типа относятся языки дескрипторного типа, ориентированные на использование их в автоматизированном (машинном) варианте индексирования.

При координатном индексировании в ПОД может включаться неограниченное число ключевых слов, что способствует сокращению потерь информации, обеспечивает большую гибкость индексирования и увеличение совпадений терминов при поиске документов. При данном виде индексирования рекомендуется составлять в среднем 15–20 терминов для одного документа.

Между предметными и дескрипторными ИПЯ существуют незначительные различия, поэтому навыки предметизации помогают овладевать посткоординатным ИПЯ. Эти различия фактически сводятся к тому или иному режиму использования: предметизация – ручной режим, посткоординатное индексирование – автоматизированный режим.

В ИПЯ различают два уровня интеграции:

1. В качестве лексической единицы выступают слова и устойчивые словосочетания (дескрипторные ИПЯ, языки ключевых слов)

2. В качестве лексической единицы выступают как слова и устойчивые словосочетания, так и фразы, имеющие сложную синтаксическую структуру. Это ИПЯ иерархических классификаций (УДК, ББК, рубрикатор ГР НТИ).

Информационно-поисковые языки различаются по способам построения лексических единиц. Так, в классификационных ИПЯ используются в качестве лексических единиц специальные коды (цифры, знаки и т.д.). В предметизационных и координатных ИПЯ – слова и словосочетания естественного языка (дескрипторные ИПЯ, язык ключевых слов, язык предметных рубрик). В связи с этим различают словарные и кодированные ИПЯ.

Грамматика ИПЯ характеризуется особенностями парадигматических и синтагматических отношений между понятиями.

Парадигматические отношения. Между лексическими единицами ИПЯ существуют определенные отношения, обусловленные наличием логических связей между предметами и явлениями, которые обозначены этими словами. Парадигматические отношения показывают объективные предметно-логические зависимости между явлениями внешнего мира. Например, слова «автомобиль», «автобус», «самолет» связаны друг с другом отношениями соподчинения и координации, так как все они входят в один более широкий класс – «транспорт». Между понятиями «транспорт» и «автомобиль» существует отношение «род – вид» или отношения «целое – часть».

В библиотечно-библиографических классификациях иерархического типа (ДКД, УДК, ББК) парадигматические отношения прослеживаются между классификационными рубриками и соответственно понятиями, которые эти рубрики выражают. Понятие, выраженное индексом отдела, является «целым» или «родовым» по отношению к нижестоящим делениям (разделам, подразделам). Понятия, выраженные индексами разделов и подразделов, являются соподчиненными понятию, представленному индексом отдела.

Например, понятия отдела 2 «Естественные науки» являются «родовыми» по отношению к понятиям, имеющим индексы 22 «Физико-математические науки», 24 «Химические науки» и т.д. В свою очередь понятия обозначенные индексом 22 становятся «родовыми» по отношению к 22.1 «Математика», 22.2 «Механика», 22.3 «Физика» и т.д. Важнейшими свойствами таких отношений являются: внетекстовый характер или независимость от контекста; многоступенчатость (нелинейность парадигматических отношений). Парадигматические отношения принято обозначать как «отношения по вертикали».

Одна и таже лексическая единица может входить в различные смысловые ряды, где она противопоставляется по различным признакам: размер, форма.

Синтагматические отношения связывают слова и устанавливают линейные отношения («отношения по горизонтали»), которые образуются при объединении слов и словосочетаний во фразы и предложения. Эти отношения называются также ситуативными или контекстуальными. Синтагматические отношения – это всегда отношения между лексическими единицами в линейно-упорядоченных цепочках. Соединение индексов различных таблиц (основных и вспомогательных) между собой подтверждает наличие синтагматических отношений в ИПЯ.

Пример 1. 63.3(2)53-7 «Культура «Серебряного века».

Для отражения этого понятия комбинируются индексы:

63.3 – История

(2) – Россия. СССР

53 – Россия II пол. 90-х гг. XIX в. – октябрь 1917 г.

-7 – «Культура. Идеология. Быт».

Пример 2. 86.371-3,8 «Деятели раннего христианства»

86.37 – Христианство

-3 – История религии

,8 – Персоналии деятелей религии

Таким образом, в процессе индексирования, выражается на ИПЯ не просто слово или словосочетание, а синтаксически сложное понятие в виде фразы.

Поскольку индексирование можно осуществлять с помощью различных ИПЯ, то определенный вид индексирования реализуется в зависимости от выбора индексатором вида ИПЯ (см. таблицу 1):

 

Таблица 1 Соотношение используемых ИПЯ и видов индексирования

 

Индексирование
Вид ИПЯ Предкоординатные ИПЯ Посткоординатные ИПЯ
Вид индексирования Предкоординатное индексирование   Координатное индексирование
Вид ИПЯ Классификационные ИПЯ Предметизацион-ные ИПЯ Посткоординатные ИПЯ (ДИПЯ, язык ключевых слов)
Название процесса Систематизация Предметизация Координатное индексирование
Представление ИПЯ Таблицы библиотечно-библиографических классификаций Словарь/список предметных рубрик Тезаурус
Термины индексирования Классификационный индекс Предметная рубрика Ключевые слова, дескрипторы
Область применения Систематический каталог, систематическая картотека статей, расстановка документного (библиотечного) фонда Предметный каталог, предметная картотека, алфавитно-предметный указатель к систематическому каталогу и библиографическим указателя Электронный каталог, базы данных

 

Одновременное применение при индексировании нескольких информационно-поисковых языков позволяет добиться глубины и адекватности отражения содержания документа.


 


Поделиться с друзьями:

Эмиссия газов от очистных сооружений канализации: В последние годы внимание мирового сообщества сосредоточено на экологических проблемах...

Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...

История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...

Опора деревянной одностоечной и способы укрепление угловых опор: Опоры ВЛ - конструкции, предназначен­ные для поддерживания проводов на необходимой высоте над землей, водой...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.022 с.