Поиск инфор мации в сети Интернет — КиберПедия 

Своеобразие русской архитектуры: Основной материал – дерево – быстрота постройки, но недолговечность и необходимость деления...

Особенности сооружения опор в сложных условиях: Сооружение ВЛ в районах с суровыми климатическими и тяжелыми геологическими условиями...

Поиск инфор мации в сети Интернет

2021-04-18 303
Поиск инфор мации в сети Интернет 0.00 из 5.00 0 оценок
Заказать работу

Объем хранящейся в Интернете информации чрезвычайно велик и оценивается десятками террабайт. На серверах сети хранится более 2 миллиардов Web-страниц. Пользователи разыскивают в Интернете не только текстовые документы, новости, но и фото-, аудио-, видеоматериалы, товары, услуги, вакантные места работы.

Поиск информации в сети можно вести с помощью поисковых систем (ПС) и каталогов. Мощные поисковые системы и каталоги являются сложными техническими комплексами, содержащими десятки быстродействующих компьютеров, обслуживание которых ведут сотни специалистов. Вначале рассмотрим принцип действия ПС, а затем — каталогов.

Поисковые системы иначе называют: поисковыми средствами, поисковыми машинами, автоматическими индексами. Эквивалентными иностранными терминами являются: английский — Search Engines, немецкий — Suchmaschinen, французский — Le systeme de prospection. На жаргоне сети ПС иногда называют искалками, поисковиками.

Работа ПС основывается на формировании запроса, по которому происходит отбор нужных документов из распределенной базы данных, хранящейся на серверах в Интернете. Запрос формируется с помощью ключевых слов (одного или нескольких). Результаты поиска выдаются пользователю в виде списка адресов (гиперссылок) и краткой аннотации к ним.

Ключевое слово — это лексическая единица, являющаяся существительным, прилагательным, глаголом, числительным, наречием или местоимением естественного языка, которая в наибольшей степени отражает содержание всего искомого документа. При формировании запроса могут использоваться не только отдельные ключевые слова, но и словосочетания, состоящие из нескольких ключевых слов.

Запрос — это набор соединенных операторами ключевых слов, с помощью которых поисковая система автоматически ведет поиск и отбор необходимых документов. Другими словами, запрос — это инструкция (команда) для ПС на поиск нужных документов.

Запросы бывают двух типов: простые и сложные (или расширенные, advanced).

Простые запросы состоят из отдельных ключевых слов или словосочетаний. Сложные запросы, кроме ключевых слов, содержат логические и другие операторы.

Поиск — это процедура отбора нужных документов, хранящихся в сети.

 

Поиск осуществляется либо автоматически с помощью ключевых слов, вводимых в ПС, либо путем последовательного ручного прохода по рубрикам в каталогах.

Поиск с помощью ключевых слов сводится к их вводу (формированию запроса) в специальное поле Поиск и последующему нажатию кнопки Найти. Кнопка Найти в разных ПС может называться Search, Find, Go, Go Get it, Suchen.

На рисунке приведены фрагменты трех поисковых систем с изображением полей для ввода запросов и командных кнопок.

 

       

Для ускорения процедуры поиска ПС производит обработку хранящихся в сети документов — индексацию.

Индексация – это процедура автоматического создания базы данных, в которой хранятся ключевые слова, аннотации документов и доменные адреса, по которым размещены эти документы. В базе данных каждому документу ставится в соответствие свой набор ключевых слов и доменных адресов.

Когда идет обслуживание конкретного запроса на поиск нужной информации, то ПС сравнивает ключевые слова, введенные пользователем, с ключевыми словами, полученными в процессе индексации и хранящимися в базе данных ПС. При совпадении этих слов пользователю выдается доменный адрес данного документа, т. е. указывается место его хранения в сети.

Процедура поиска по ключевым словам очень напоминает работу с обычной книгой, в которой есть алфавитный указатель. Читатель с помощью алфавитного указателя определяет номера страниц книги, на которых присутствует нужное ключевое слово. Этим ускоряется поиск нужной информации. В данном случае номер страницы книги — это как бы доменный адрес Web-страницы.

Индексация документов, размещенных на различных серверах, производится поисковыми системами автоматически с помощью специальных программ — роботов (Robots). Другие названия этих программ — пауки (Spiders) или черви (Worms).

Робот (паук, червь) — программа, которая автоматически периодически «посещает» сайты и индексирует их (т. е. собирает сведения о их содержимом и местоположении).

Назначение роботов очевидно: эти программы постоянно «осматривают», сканируют сеть, запоминают, что где лежит, чтобы в нужный момент времени показать пользователю точное место хранения документа (т. е. его доменный адрес). Этим объясняется потрясающе высокая скорость поиска нужной информации. Фактически роботы начинают поиск задолго до обслуживания конкретного запроса.

Тенденция развития ПС такова, что наиболее быстродействующие ПС стремятся произвести индексацию всего документа, а не только его названия и первых предложений текста. Наиболее совершенные роботы при индексации сканируют не только главную (домашнюю) страницу, но и по гиперссылкам заходят вглубь сайта (узла). Ограничивается такая идеалистическая картина индексации лишь низкой скоростью работы современных ПС и общим быстродействием всей сети.

Предварительная индексация хранящихся в сети документов позволяет впоследствии за несколько секунд обслуживания запроса обработать (отсортировать) гигабайты разнообразной информации.

С помощью механизма предварительной индексации можно получить хороший результат поиска в случаях, когда удается точно сформировать запрос с помощью небольшого числа ключевых слов. В иных случаях пользователь либо получит большое число ссылок (иногда говорят, линков, т. е. связей), которые являются лишь «информационным шумом», либо вовсе не удастся найти необходимый документ.

Значительно повышают избирательность поиска фильтры, которыми снабжаются поисковые системы.

Фильтры позволяют:

— ограничить список отбираемых документов с помощью логических операторов (выполнить так называемый сложный поиск);

— ограничить пространство поиска типом протокола, с помощью которого был создан документ (поиск на Web-сайтах или в телеконференциях);

— ограничить отбираемый материал временным отрезком, определенными датами создания разыскиваемого документа (например, между 31 июля 2002 г. и 19 апреля 2003 г.);

— отобрать документы, составленные только на определенном языке (русский, английский);

— ограничить отбор документов территорией размещения серверов (например, только Европа);

— ограничить поиск определенной частью документа (заголовок, доменный адрес);

— отобрать документы, которые содержат фразу с заданным порядком расположения ключевых слов.

Поиск русских документов в сети дополнительно осложняется особенностями национальной грамматики. В русском языке (в отличие от английского языка) необходимо учитывать падежные окончания ключевых слов.

Наибольшей популярностью в русскоязычной части Интернета пользуются поисковые системы Rambler (произносится Ремблер, а переводится как бродяга, праздношатающийся, его адрес www.rambler.ru), Апорт (www.aport.ru) и Яndex (www.yandex.ru).

Русскоязычные ПС позволяют отбрасывать окончания ключевых слов и заменять их метасимволами «*» и «?». При этом на запрос «самар*» будут найдены документы, содержащие слова: Самара, Самары, самарский, самарская и т. п.

Поисковая система Aport использует принципы искусственного интеллекта. Она обрабатывает запрос таким образом, что подбирает синонимы введенным ключевым словам и автоматически решает проблему падежных окончаний.

При поиске информации ПС может делать две ошибки: пропускать (не отбирать) нужные пользователю документы и, наоборот, отбирать (присылать) посторонние документы (мусор, информационный шум). Эти ошибки, совершаемые автоматическими ПС, описываются терминами «избирательность» и «чувствительность».

Заметим, что в приведенной фразе есть некоторая терминологическая неточность: ПС отбирают не документы, а лишь гиперссылки на них. С помощью полученных ссылок пользователь просматривает или загружает на собственный компьютер понравившийся ему документ. Однако методически удобнее говорить о несоответствии запросу документа, а не гиперссылки.

Служба World Wide Web (WWW) — это единое информационное пространство, состоящее из сотен мил­лионов взаимосвязанных электронных документов.

Отдельные документы, составляющие пространство Web, называют Web -страницами.

Группы тематически объединенных Web-страниц называют Web -узлами (сайтами).

Программы для просмотра Web-страниц называют броузерами (обозревателями).

Адресация в сети:

           IP - адрес                                                    DNS - адрес.

IP - адрес состоит из четырех блоков цифр, разделенных точками. Он может иметь такой вид: 32.87.56.5

DNS – адрес:

http://www.yandex.ru

http - протокол передачи данных

www – сервер находится на WWW

yandex – название сервера

ru - сервер находится России

Часть адреса, разделенная точками называется доменом.

Веб-страница – это текстовый файл, написанный на языке HTML.

Сайт- это совокупность объединенных общим содержанием веб-страниц, размещенная на каком-либо сервере WWW под определенным именем и реализующая виртуальное представительство организации или отдельного человека в Интернете.

Гиперссылка - фрагмент текста, который является указателем на другой файл или объект. Гиперссылки позволяют переходить от одного документа к другому.

Фрейм - область гипертекстового документа со своими полосами прокрутки.
 

Задания для выполнения практической работы

Задание 1

Теоретическая часть:

Важные и интересные Web-страницы полезно сохранять на локальном компьютере. Можно выбрать различные варианты сохранения Web-страниц:

• сохранение страницы в формате HTML приведет к сохранению самой страницы, но при этом не сохранятся связанные с ней рисунки, звуковые и прочие файлы;

• сохранение страницы в формате ТХТ приведет к сохранению самой страницы в текстовом формате;

• сохранение страницы в формате Web-страница полностью приведет к сохранению не только самой страницы, но и связанных с ней рисунков, звуковых и прочих файлов в отдельной папке.

Можно сохранить как Web-страницу полностью, так и отдельную ее часть: текст, изображения или ссылки. Для этого необходимо щелкнуть по выбранному для сохранения объекту правой кнопкой мыши и выбрать в контекстном меню опции Сохранить объект как... или Сохранить рисунок как... и выбрать затем папку на локальном компьютере, где будет произведено сохранение элемента Web-страницы.

Практическая часть

1) Создайте свою папку на рабочем столе и переименуйте её.

2) Откройте программу Internet Explorer.

3) В строке Адрес сотрите надпись About:blank.

4) Введите адрес www. astrogalaxy.ru

5) Дождитесь загрузки страницы.

6) Сохраните страницу. Файл à Сохранить как… Выполните сохранение в созданной вами папке.

7) Изображения в некоторых случаях необходимо сохранять отдельно. Щёлкните на любой картинке правой клавишей мыши à Сохранить рисунок как… Выполните сохранение в созданной вами папке.

8) Зайдите на один из сайтов:

(1) www.biodat.ru

(2) www.georus.by.ru

(3) www.astrolab.ru

9) Найдите 8-10 изображений и 5-6 Веб-страниц, сохраните в заранее созданной папке.

Задание 2. Поиск по русским ключевым словам (индексный метод)

С помощью поисковой машины www.rambler.ru индексным методом определить число найденных ссылок для ключевых слов: один, два, три, …, четырнадцать.

Ключевые слова выбираются в зависимости от номера варианта (см. табл. 1, первая колонка). Например, для первого варианта нужно в поле «Поиск» ПС набрать ключевое слово «один». Провести поиск и зафиксировать в отчете число найденных ссылок.

Номер варианта

Первая буква фамилии

Слово
1 2 3 4 5 6 7 8 9 10 11 12 13 14 А Б В Г Д Е Ж З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я Laptop CD-ROM Mouse Display Scanner Computer Printer Processor Disk Keyboard Plotter Diskette Trackball Joystick
       

 

Задание 3. Поиск по английским ключевым словам

С помощью поисковой машины AltaVista (www.altavista.com) определить число ссылок, найденных поисковой машиной для двух английских слов, заданных в табл.1 (свой вариант и последующий, например, для одиннадцатого варианта - Plotter и Diskette).

Задание 4. Сложный поиск с помощью логических функций

С помощью поисковой машины AltaVista (www.altavista.com) выполнить сложный (расширенный) поиск с использованием булевых операторов AND, OR, AND NOT.

При поиске следует использовать английские ключевые слова, указанные в табл.1, для своего и последующего вариантов. Например, Disk AND Keyboard, Joystick OR Laptop, Mouse AND NOT Display. Поиск провести четыре раза, используя одни и те же ключевые слова, но разные операторы (AND, OR, AND NOT). Заметим, что с оператором AND NOT задание нужно выполнить дважды, поменяв ключевые слова своими местами.

 

Сложный поиск следует производить в расширенном режиме (Advanced Search). Запрос нужно ввести в окно Boolean query (Булевский запрос).

Результаты поиска поместить в отчет. Объяснить причины различий результатов.

Задание 5. Поиск информации в материалах телеконференций

С помощью сервера http://groups.google.com произвести поиск информации в материалах телеконференций.

Определить сколько документов содержат фразу operation system (операционная система). Затем осуществить повторный поиск, взяв фразу в кавычки, т.е. «operation system». Поместить в отчет число найденных документов в первом и втором случаях. Объяснить причину различия результатов.

Ознакомиться с некоторыми найденными документами. Убедиться, что использованные ключевые слова присутствуют в отобранных документах. Обратить внимание на местоположение ключевых слов в документах, найденных двумя разными способами (с использованием кавычек и без кавычек).

Задание 6. Поиск рисунков по ключевому слову

По слову, заданному в табл. 1, осуществить поиск фотографий и рисунков на серверах:

http://image.altavista.com/cgi-bin/avncgi

http://www.graphsearch.com/

http://ditto.com

В отчет поместить число найденных графических объектов, соответствующих заданному слову (отдельно для каждой ПС). Например, для четырнадцатого варианта нужно использовать ключевое слово "Joystick".

Задание 7. Поиск информации об известных специалистах

На сайте www.file.ru/o/index.htm найти фамилии трех известных специалистов вычислительной техники России (например, Фигурнов, Касперский, Лозинский, Дьяконов и т.д.). Основные сведения занести в отчет.

Задание 8. Поиск с помощью каталогов

С помощью отечественного каталога www.list.ru (http://yellow-pages.al.ru/ или www.km.ru/url) отыскать три ссылки, посвященные поисковым машинам. Найденные доменные адреса и краткую аннотацию к каждой ссылке записать в отчет.

Задание 9. Поиск электронных адресов по известной фамилии

С помощью поисковой машины www.bigfoot.com (или www.four11.com, http://people.yahoo.com, www.whowhere.com, www.iaf.net) найти электронные адреса людей с фамилией Ivanov. Поместить в отчет название использованной ПС и число найденных адресов. Записать в отчет три любых электронных адреса. Выделить в найденных адресах логины и имена почтовых серверов.

Найти электронные адреса своих однофамильцев, записав при поиске фамилию латинскими буквами. В отчет поместить сведения о числе найденных адресов и три любых электронных адреса.

Примечание. Если адреса однофамильцев не найдены, то необходимо сделать поиск для любой широко распространенной фамилии.

Методические указания

При выполнении задания 8 (поиск электронных адресов по известной фамилии) нужно фамилию записать в поле last name и активизировать включатель email addresses. Поиск начнется после щелчка по кнопке Go.

Примечание. Интернет динамично изменяется, поэтому не исключены случаи, когда некоторые сайты, временно не работают, перестают существовать или меняют свой доменный адрес. В подобных случаях отдельные задания будут корректироваться преподавателем.

 

4. Ответить на контрольные вопросы

1. Что называется поисковой системой?

2. Какие синонимы есть у термина «поисковая система»?

3. Чем отличаются поиск по ключевым словам (дескрипторные ПС) и поиск с помощью каталогов (иерархические ПС)?

4. Перечислите отечественные поисковые системы.

5. Перечислите зарубежные поисковые системы.

6. С помощью каких поисковых систем следует искать электронные адреса людей?

7. Приведите примеры использования расширенного поиска (с применением логических функций).

8. Что означает термин «релевантность»?

9. Что означает термин «чувствительность»?

10. Что означает термин «избирательность»?

11. По какому принципу ранжируются выводимые документы, найденные в процессе поиска?

12. Как задать поиск точного словосочетания?

13. Каков принцип действия метапоисковых систем?

14. Какое число документов проиндексировано в наиболее мощных поисковых системах?

15. Что означают термины «рубрикация» и «индексация»?

16. С помощью каких ПС следует искать документы в телеконференциях?

17. Запишите доменные адреса отечественных ПС.

18. Запишите доменные адреса зарубежных ПС.

 



Поделиться с друзьями:

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...

История развития пистолетов-пулеметов: Предпосылкой для возникновения пистолетов-пулеметов послужила давняя тенденция тяготения винтовок...

Состав сооружений: решетки и песколовки: Решетки – это первое устройство в схеме очистных сооружений. Они представляют...

Индивидуальные и групповые автопоилки: для животных. Схемы и конструкции...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.075 с.