Типы информационно-поисковых языков — КиберПедия 

Своеобразие русской архитектуры: Основной материал – дерево – быстрота постройки, но недолговечность и необходимость деления...

Эмиссия газов от очистных сооружений канализации: В последние годы внимание мирового сообщества сосредоточено на экологических проблемах...

Типы информационно-поисковых языков

2017-06-26 246
Типы информационно-поисковых языков 0.00 из 5.00 0 оценок
Заказать работу

Главная задача информационно-поисковой системы – поиск информации, релевантной информационным потребностям пользователя. Под релевантностью понимают соответствие между желаемой и получаемой информацией.

Релевантность можно представить так же, как меру близости между реально полученными документами и тем, что следовало бы получить из системы. Возникают две взаимосвязанные задачи: представление информации в системе и формулирование информационных потребностей пользователя. Руководства по ИПС обычно утверждают, что в системе реализуется запрос типа "найди похожее". Но что означает эта фраза в действительности? Как вычислить эту похожесть?

Наиболее распространенными моделями представления документов в информационно-поисковой системе являются различные вариации на тему векторной модели, в которой документ выдается в виде набора терминов, то есть имеется не весь текст документа, а только небольшой набор терминов, отражающий его содержание. Отталкиваясь от такого представления о документе, рассмотрим различные информационно-поисковые языки и определим степень развития информационно-поисковых средств, используемых в Internet.

Традиционные ИПЯ и их модификации

Наиболее распространенным является язык, позволяющий составить логические выражения из набора терминов. При этом используются булевы операторы AND, OR, NOT. Тогда запрос может выглядеть следующим образом:

((информационная and система) or ИПС) not СУБД

Эта фраза означает: <Найди все документы, которые содержат одновременно слова "информационная" и "система", либо слово "ИПС", но не содержат слова "СУБД">. Фактически, здесь имеется два запроса: "информационная and система not СУБД" и "ИПС not СУБД", каждый из которых подразумевает как бы два действия: сначала найти все документы, содержащие необходимые пользователю термины, а потом отсеять все из них, которые содержат термин "СУБД". Такая схема достаточно проста и поэтому наиболее широко применяется в современных ИПС, однако еще 20 лет назад уже были хорошо известны ее недостатки.

Булев поиск плохо масштабирует выдачу. Оператор AND может очень сильно сократить число документов, выдаваемых на запрос. При этом все будет зависеть от того, насколько типичными для базы данных являются поисковые термины. Оператор OR, напротив, может привести к неоправданно широкому запросу, в котором полезная информация затеряется за информационным шумом. Для успешного применения этого ИПЯ следует хорошо знать лексику системы и ее тематическую направленность. Как правило, для системы с таким поисковым языком создаются специальные документально - лексические базы данных со сложными словарями или тезаурусами, содержащими информацию о связи терминов словаря друг с другом.

Модификацией булева поиска является взвешенный поиск. Идея достаточно проста. Считается, что термин описывает содержание документа с какой-то точностью, и эту точность выражают в виде веса термина. Причем взвешивать можно как термины документа, так и термины запроса. Запрос может формулироваться на ИПЯ, использующем булевы конструкции, но выдача документов при этом будет ранжироваться в зависимости от степени близости запроса и документа. Измерение близости строится таким образом, чтобы обычный булевый поиск был бы частным случаем взвешенного булевого поиска.

Языки типа "Like this"

При внимательном рассмотрении взвешенного поиска закрадывается естественное желание вообще обойтись без логических коннекторов и измерять близость документа и запроса какими-либо другими критериями. Наиболее простой моделью этого типа является линейная модель индексирования и поиска, при которой близость документа и запроса рассматривается как угол между ними. В этом случае высчитывается синус угла, получаемого как скалярное произведение двух векторов. В соответствии со значением меры близости происходит ранжирование документов при выдаче на них ссылок. Вообще скалярное произведение не очень хорошо подходит для ИПС Internet, так как длина запроса обычно невелика. Это только в традиционных системах существовали специальные службы, отлаживающие длинные запросы, а в Internet такие службы пока еще только нарождаются. Поэтому реально применяются другие меры близости, но принцип остается тот же: сначала вычисляется мера, а потом происходит ранжирование.

Поиск в нечетких множествах

При данном типе поиска весь массив документов описывается как набор нечетких множеств терминов. Каждый термин определяет некую монотонную функцию принадлежности к документам данного массива. Когда запрашивается AND, то это понимается как минимум из двух функций, соответствующих терминам запросов: OR - как максимум, NOT - как 1-<значение функции>. В соответствии с полученными значениями результат поиска также ранжируется, как и в случае с поиском по мерам близости. Этот метод поиска используется только в исследовательских системах, его распространение крайне ограничено.

Пороговые модели

Как уже было сказано, на конечном этапе поиска выборка найденных документов ранжируется, однако совершенно очевидно, что меры близости или поиск в нечетких множествах приводит к ранжированию всего массива документов в базе данных. Современные ИПС Internet имеют базы данных, состоящие только из индексов и занимающие терабайты. Ранжировать такие массивы целиком – безумная затея. Поэтому применяются пороговые модели, задающие пороговые значения для документов, выдаваемых пользователю.

Кластерная и вероятностная модели

В кластерной модели может использоваться два подхода. Первый заключается в том, что массив заранее разбивается на подмножества документов и при поиске вычисляется близость к некоторому подмножеству. В другом подходе кластер "накручивается" вокруг запроса и ближайших к нему терминов. Наиболее часто эта модель применяется в системах, уточняющих запрос по релевантности найденных документов.

При вероятностной модели вычисляется вероятность принадлежности документа классу релевантных запросу документов. При этом используется вероятность принадлежности терминов запроса каждому из документов базы данных.

Коррекция запроса по релевантности

Многие ИПС применяют механизм коррекции запроса по релевантности, означающий, что процедура поиска носит интерактивный и итеративный характер. После проведения первичного поиска пользователь отмечает релевантные запросу документы из всего списка найденных. На следующей итерации система расширяет или уточняет запрос пользователя терминами из отмеченных документов и снова выполняет поиск. Так продолжается до тех пор, пока пользователь не сочтет, что лучшего результата, чем есть, добиться уже не удастся. Коррекция запроса по релевантности – это довольно широко применяемый способ уточнения запросов. В некоторых системах, например в OpenText, пользователь может и не знать об этой процедуре. В этом случае несколько итераций выполняется автоматически.

Задание

Задание 1. Для того чтобы пользователь одного компьютера смог использовать ресурсы другого компьютера, входящею в сеть, необходимо организовать доступ к логическим устройствам.

Для этого на компьютере, к логическим устройствам которого обеспечивается доступ, необходимо выполнить следующие операции:

1. Открыть окно Мой компьютер.

2. В этом окне переместить указатель на значок диска (например, D:), к которому требуется открыть доступ по сети, и щелкнуть правой кнопкой мыши.

3. В контекстном меню выбрать пункт Доступ.

4. В появившемся окне необходимо выбрать переключатель Общий ресурс.

5. Указать сетевое имя этого диска.

6. Определить один из трех типов доступа посредством переключателей Только чтение, Полный, Определяется по паролю.

7. Нажать кнопку ОК.

Указанные операции повторяются для всех логических дисков, включая и CD-ROM.

Использование общих ресурсов осуществляется через папку Сетевое окружение. Выбрав имя компьютера, можно просмотреть и использовать общие ресурсы. Для того чтобы пользователь одного компьютера смог использовать ресурсы другого компьютера, входящего в сеть, необходимо организовать доступ к сетевым дискам. После их подключения работа с ними осуществляется как с обычными дисками на индивидуальном компьютере.

Задание 2. Диагностика IP-протокола.

1. Нажмите кнопку Пуск, выберите строку меню Выполнить, наберите символы cmd и нажмите клавишу Enter на клавиатуре.

2. В открывшемся окне наберите ipconfig /all. При нормальной работе компьютера на экран должен вывестись примерно такой листинг:

Настройка протокола IP для Windows Имя компьютера…………………..: c 7 a 106- Main Основной DNS -суффикс………….: Тип узла…………………………….: гибридный IP -маршрутизация включена………: нет WINS -прокси включен……………..: нет Порядок просмотра суффиксов……: compclass . loc Подключение по локальной сети – Ethernet адаптер: DNS -суффикс этого подключения…: compclass . loc Описание ……………………………..: Realtek RTL8168C(P)/8111C(P) PCI-E Gigabit Ethernet NIC Физический адрес……………………:00-1 F - D 0-16-19-87 Dhcp включен………………………...: да Автонастройка включена……………: да IP -адрес………………………………..: 192.168.52.24 Маска подсети………………………...: 255.255.255.0 Основной шлюз……………………….: 192.168.52.254 DHCP -сервер…………………………..: 192.168.52.152 DNS -серверы…………………………...: 192.168.52.152 Основной WINS -сервер………………..: 192.168.52.152 Аренда получена………………………..: 5 мая 2009 г. 13:48:26 Аренда истекает…………………………: 6 мая 2009 г. 13:48:26

3. Отключите сетевое подключение, повторите команду. При отсутствующем соединении на экран выводится примерно такой листинг:

Windows IP Configuration Host Name............: vest Primary Dns Suffix.......: vrn.ru Node Type............: Hybrid IP Routing Enabled........: No WINS Proxy Enabled........: No DNS Suffix Search List......: vrn.ru vrn.ru Ethernet adapter Local Area Connection: Media State...........: Media disconnected Description...........: Intel(R) PRO/100 S Desktop Adapter Physical Address.........: 00-02-B3-8D-44-53

Обратите внимание, что программа вывела на экран только данные о "физических" параметрах сетевой карты и указала, что отсутствует подключение сетевого кабеля (Media disconnected).

Команда Ping

Команда используется для проверки протокола TCP/IP и достижимости удаленного компьютера. Она выводит на экран время, за которое пакеты данных достигают заданного в ее параметрах компьютера.

1. Проверка правильности установки протокола TCP/IP. Откройте командную строку и выполните команду:

ping 192.168.52.24

Адрес 192.168.52.24 – это личный адрес любого компьютера. Таким образом, эта команда проверяет прохождение сигнала "на самого себя". Она может быть выполнена без наличия какого-либо сетевого подключения. Вы должны увидеть приблизительно следующие строки:

Обмен пакетами 192.168.52.24 по 32 байт: Ответ от 192.168.52.24 число байт=32 время<1мс TTL=128 Ответ от 192.168.52.24 число байт=32 время<1мс TTL=128 Ответ от 192.168.52.24 число байт=32 время<1мс TTL=128 Ответ от 192.168.52.24 число байт=32 время<1мс TTL=128 Статистика Ping для 192.168.52.24: Пакетов: отправлено = 4, получено = 4, потеряно = 0 (0% потерь), Приблизительное время приема-передачи в мс: Минимальное = 0 мсек, Максимальное= 0 мсек, Среднее = 0 мсек

По умолчанию команда посылает пакет 32 байта. Размер пакета может быть увеличен до 65 кбайт. Так можно обнаружить ошибки при пересылке пакетов больших размеров. За размером тестового пакета отображается время отклика удаленной системы (в нашем случае – меньше 1 миллисекунды). Потом показывается еще один параметр протокола – значение TTL. TTL – "время жизни" пакета. На практике это число маршрутизаторов, через которые может пройти пакет, каждый маршрутизатор уменьшает значение TTL на единицу. При достижении нулевого значения пакет уничтожается. Такой механизм введен для исключения случаев зацикливания пакетов.

Если будет показано сообщение о недостижимости адресата, то это означает ошибку установки протокола IP. В этом случае целесообразно удалить протокол из системы, перезагрузить компьютер и вновь установить поддержку протокола TCP/IP.

2. Проверка видимости локального компьютера и ближайшего компьютера сети. Выполните команду

ping 192.168.52.88

На экран должны быть выведены примерно такие строки:

Обмен пакетами с 192.168.52.88 по 32 байт:Ответ от 192.168.52.88: число байт =32 время<=1 мс TTL =128 Ответ от 192.168.52.88: число байт =32 время<=1 мс TTL =128 Ответ от 192.168.52.88: число байт =32 время<=1 мс TTL =128 Ответ от 192.168.52.88: число байт =32 время<=1 мс TTL =128 Статистика Ping для 192.168.52.88: Пакетов: отправлено = 4, получено = 4, потеряно = 0 (0% потерь), Приблизительное время приема-передачи в мс: Минимум=0 мсек, Максимальное = 0 мсек, Среднее = 0 мсек

Наличие отклика свидетельствует о том, что канал связи установлен и работает.

3. Проверка работоспособности сервера имен Internet. Выполните команду

ping 192.168.3.2

Если система сможет различить IP-адрес этого хоста, то система распознавания имен работоспособна. На экран должен быть выведен примерно такой листинг:

 

Обмен пакетами с 192.168.3.2 по 32 байт:

Ответ от 192.168.3.2: число байт =32 время<1 мс TTL=63

Ответ от 192.168.3.2: число байт =32 время<1 мс TTL=63

Ответ от 192.168.3.2: число байт =32 время<1 мс TTL=63

Ответ от 192.168.3.2: число байт =32 время<1 мс TTL=63

Статистика Ping для 192.168.3.2:

Пакетов: отправлено = 4, получено= 4, потеряно = 0 (0% потерь),

Приблизительное время приема-передачи в мс:

Минимальное = 0 мсек, Максимально = 0 мсек, Среднее= 0 мсек 6ms

Если не будет ответа на ввод команды с именем существующего хоста, то это может свидетельствовать либо об ошибке в задании DNS-серверов, либо об их неработоспособности.

Команда Tracert

При работе в Сети одни информационные серверы откликаются быстрее, другие медленнее, бывают случаи недостижимости желаемого хоста. Для выяснения причин подобных ситуаций можно использовать специальные утилиты.

Например, команда tracert, которая обычно используется для показа пути прохождения сигнала до желаемого хоста. Зачастую это позволяет выяснить причины плохой работоспособности канала. Точка, после которой время отклика резко увеличено, свидетельствует о наличии в этом месте "узкого горлышка", не справляющегося с нагрузкой.

4. В командной строке введите команду:

Tracert 192.168.3.2

Вы должны увидеть примерно такой листинг:

Трассировка маршрута к 192.168.3.2 с максимальным числом прыжков 30

1 1 ms 2 ms 1 ms 192.168.52.254

2 <1 мс <1 мс <1 мс _

Trace complete.

Команда Nslookup используется для получения информации от DNS-сервера. По умолчанию (после запуска без указания параметров) осуществляется подключение к указанному в настройках протокола серверу DNS. Набирая необходимые имена в качестве запроса, вы можете получить информацию о данных DNS по этому имени, найти почтовый сервер, обслуживающий домен, уточнить данные регистрации и т.п.

Выполните команду nslookup.

Наберите server compclass.loc и нажмите Enter – этой командой мы указываем, какой DNS-сервер мы хотим использовать для получения интересующих нас данных.

Наберите set type=all и нажмите Enter – этой командой мы указали, что нас будут интересовать все данные касательно задаваемого нами домена.

Наберите compclass.loc и нажмите Enter – этой командой мы запрашиваем данные по домену compclass.loc

На экране вы должны получить примерно такой листинг:

> nslookup

Server: srvk7class.compclass.loc

Address: 192.168.52.152

Delauf Server: compclass.loc

Address: 192.168.52.152

> set type=all

> compclass.loc

Server: compclass.loc Address: 192.168.52.152 compclass.loc internet address = 192.168.52.152 compclass.loc nameserver = srvk7classrez.compclass.loc compclass.loc nameserver = bgserver2009.compclass.loc compclass.loc nameserver =srvk7class.loc compclass.loc primary name server = srvk7class.compclass.loc responsible mail addr = hostmaster serial = 720 refresh = 900 (15 mins) retry = 600 (10 mins) expite = 86400 (1 day) bgserver2009.compclass.loc internet address = 192.168.52.152 srvk7class.compclass.loc internet address = 192.168.52.152

Библиографический список

 

Основная литература

 

1. Юдина, Н. Ю. Вычислительные машины, системы и сети [Текст]: учеб. пособие / Н. Ю. Юдина. – Воронеж, 2015. – 220 с. – Электронная версия в ЭБС ВГЛТУ.

Дополнительная литература

 

2. Мелехин, В. Ф. Вычислительные машины, системы и сети [Текст]: учеб. / В. Ф. Мелехин, Е. Г. Павловский. – 2-е изд., стер. – М.: Академия, 2007. – 560 с.

3. Хорошевский, В. Г. Архитектура вычислительных систем [Текст]: учеб. пособие / В. Г. Хорошевский. – Изд. 2-е, перераб. и доп. – М., 2008. – 520 с.

 


Поделиться с друзьями:

Своеобразие русской архитектуры: Основной материал – дерево – быстрота постройки, но недолговечность и необходимость деления...

Двойное оплодотворение у цветковых растений: Оплодотворение - это процесс слияния мужской и женской половых клеток с образованием зиготы...

Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...

Наброски и зарисовки растений, плодов, цветов: Освоить конструктивное построение структуры дерева через зарисовки отдельных деревьев, группы деревьев...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.042 с.