Обзор основных поисковых систем — КиберПедия 

Архитектура электронного правительства: Единая архитектура – это методологический подход при создании системы управления государства, который строится...

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...

Обзор основных поисковых систем

2017-08-24 230
Обзор основных поисковых систем 0.00 из 5.00 0 оценок
Заказать работу

Google

Лидер поисковых машин Интернета, Google занимает более60 % мирового рынка, а значит, шесть из десяти находящихся в сети людей обращаются к его странице в оисках информации вИнтернете. Сейчас регистрирует ежедневно около50 миллионов оисковых запросов ииндексирует более 8 миллиардов веб-страниц.

Была разработана в1998 г. выпускниками Стэндфордского университета Сергеем Бриноми ЛариПейджем, которые применили для ранжирования документов технологиюPageRank, где однимиз ключевых моментов является определение"авторитетности" конкретного документа на основеинформации о документах, ссылающихся на него. Говоря общими словами, чем большедокументов ссылается на данный документ и чем они авторитетнее, тем более авторитетнымданный документ становится. Количественное значение авторитетности документа(другимисловами, взвешенное количество ссылок илиPageRank) относится к так называемымстатическим факторам(то есть независящим от конкретного запроса) и учитывается приопределении релевантности документа конкретному запросу как весовой коэффициент. Наряду сэтимGoogleприменил для определения релевантности документа не только текст самогодокумента, но и текст ссылок на него. Эта технология озволила ему обеспечить выдачудовольно релевантных результатов на фоне других оисковиков. Довольно быстроGoogle сталлидировать в различных опросах о такому оказателю, как удовлетворенность пользователейрезультатами оиска.

Google осуществляет поиск по документам на более чем35 языках, в том числе русском. Внастоящее время многие порталы и специализированные сайты предоставляют услуги поискаинформации в Интернете на базеGoogle, что делает задачу успешного позиционирования сайтов вGoogle еще более важной. Googleпроводит переиндексацию своей поисковой базы примернораз в четыре недели. Во время этого усовершенствования, неофициально называемогоGoogledance, происходит обновление базы на основе информации, собранной роботами за время, прошедшее с предыдущего усовершенствования, и перерасчет значенийPageRank документов.

Также существует определенное количество документов с достаточно большим значениемPageRank, информация о которых в поисковой базе обновляется ежедневно, однако значениеPageRankпересчитывается только во времяGoogledance. Нормированное значениеPageRank дляконкретного документа, загруженного в браузер, можно узнать, скачав и установивGoogleToolBar - специальную панель инструментов для работы с этим поисковиком. Не смотря на то, что в поисковике имеется форма для бесплатного добавления страницы в базу, Googleпредпочитает сам находить новые документы о ссылкам с уже известных и не будетиндексировать добавленную через форму страницу, если в его базе не найдется ни однойстраницы, ссылающейся на нее.

Yahoo

Одна из самых первых поисковых системи(создана Дэвидом Фило и Джерри Янгом в апреле1994года) по сей день остается и самой популярной из них, традиционно сочетая поиск, как поключевым словам, так и с помощью иерархического дерева разделов.

Нынешнее развитиеYahoo можно определить как движение в он-лайн, интерактивность. Yahoo быстро осваивает эту область Интернет-услуг, но возникает одна проблема: ядроYahoo! не былона это рассчитано. Не была в1994 году заложено в него"онлайновая" составляющая, ее"приклеил" Тим Кугл несколькими годами позже. Естественно возникает угроза хакерских атакчерез эту незащищенную область.

Одно из новшеств поисковой системыYahoo - панель задач для браузераFirefox,. Этотинструмент помогает пользоваться поискомYahoo, не заходя на официальный сайт, а лишьиспользуя функциональные кнопки панели.

1 сентября2005 года поисковикYahoo, которому принадлежит более200 миллионов адресовэлектронной почты по всему миру, анонсировал запуск новой системы поиска текстов, фотографий и других документов, содержащихся в письмах. Необходимость такого нововведения возникла вслед за увеличением объёма хранимых данных, ведь некоторые пользователи создают целые почтовые архивы. Подгоняемый конкурентомGoogle и его почтовым сервисомGmail, Yahoo для хранения почты предлагает отныне1 гигабайтбесплатного места, или2 гигабайта по годовому абонементу. "Как только вы получаетевозможность хранить больше информации, вам необходимы и расширенные поисковыевозможности", - объясняет Эрик Петерсон, аналитик компанииJupiterResearch.

Пользователи поисковой системыYahoo, в свою очередь, смогут теперь использоватьвозможности детализированного поиска слов в названии или непосредственно в тексте письма, атакже в присоединенных документах, не открывая их. Результат поиска отражается в трёхстроках с указанием всех атрибутов. На панели справа отображаются все похожие документы.

Найденные фотографии выводятся на экран в уменьшенном виде, что значительно облегчает поиск. Система также учитывает орфографические ошибки, позволяя искать слова лишь по первым буквам.

Для началаYahooпланирует предложить новую систему небольшому числу американских пользователей, а затем распространить её по всему миру. Со стороны клиентов это не потребуетникаких дополнительных усилий. "Когда услуга станет, доступна, в левом верхнем углустраницы вашего почтового ящика появится соответствующий баннер", - обещает компания.

По даннымcomScoreMediaMetrix, доменуYahooпринадлежит219 миллионов адресов электронной почты, что составляет31,5% мирового рынка, уступая лишьMicrosoft с221 миллионом пользователей сервисаHotmail (35,5% рынка).

Основное отличие русскоязычных поисковых систем от иностранных одно- это то, чтоглобальные поисковые системы, поддерживающие поиск на русском языке, не поддерживаютрусскую морфологию. В русскоязычной части сети Интернет работают около двух десятков поисковых систем, но подавляющие большинство пользователей работает лишь с несколькими, подробно остановимся на самых крупных:

Yandex

Яндекс - на сегодня наиболее популярная поисковая система, ежемесячно к ней обращаютсяболее35 миллионов пользователей Русскоязычной части Интернета. Начала свою работу вовторой половине1997 года учитывая морфологию русского языка. История компании"Яндекс" началась в1990 году с разработки поискового программного обеспечения в компании"Аркадия".

За два года работ были созданы две информационно-поисковые системы- МеждународнаяКлассификация Изобретений, 4 и5 редакция, а также Классификатор Товаров и Услуг. Обесистемы работали локально одDOS и позволяли проводить поиск, выбирая слова из заданногословаря, с использованием стандартных логических операторов. В1993 году"Аркадия" сталаподразделением компанииCompTek. В1993-1994 годы программные технологии былисущественно усовершенствованы благодаря сотрудничеству с лабораторией Ю. Д. Апресяна(Институт Проблем Передачи Информации РАН). В частности, словарь, обеспечивающий поискс учетом морфологии русского языка, занимал всего300Кб, то есть целиком грузился воперативную память и работал очень быстро. С этого момента пользователь мог задавать взапросе любые формы слов.

Слово Яндекс придумал за несколько лет до этого один из основных и старейших разработчиков поискового механизма. "Яndex" означает"Языковойindex", или, если по-английски, "Yandex" - "YetAnotherindexer". За4 года публичного существования Яndex возникли и другие толкования. Например, если в слове"Index" перевести с английского первую букву("I" - "Я"), получится"Яndex".

В начале1996 года был разработан алгоритм построения гипотез. Отныне морфологическийразбор перестал быть привязан к словарю- если какого-либо слова в словаре нет, то находятсянаиболее похожие на него словарные слова и о ним строится модель словоизменения. В этовремя Интернет в России только начинался. Еще через полгода стало очевидно, что ничто неотделяетCompTek от создания собственной глобальной поисковой машины. Объем Рунетасоставлял тогда всего несколько гигабайт. Осенью1997 года был открытYandex.Ru.

Помимо поисковой системы, сегодня Яндекс- огромный портал с целым набором широкоиспользуемых сервисов, такими как каталог, Яндекс.деньги, и другие. Официально поисковаямашинаYandex.Ru была анонсирована23 сентября1997 года на выставкеSoftool. Основнымиотличительными чертамиYandex.Ru на тот момент были проверка уникальности документов(исключение копий в разных кодировках), а также ключевые свойства поискового ядра Яндекс, аименно: учет морфологии русского языка(в том числе и поиск по точной словоформе), поиск сучетом расстояния(в том числе в пределах абзаца, точное словосочетание), и тщательноразработанный алгоритм оценки релевантности(соответствия ответа запросу), учитывающий нетолько количество слов запроса, найденных в тексте, но и"контрастность" слова(егоотносительную частоту для данного документа), расстояние между словами, и положение слова вдокументе. Сегодня Яндекс имеет внутри мощный поисковый робот, позволяющий производитьпоиск о самым различным критериям.

Rambler

Rambler - старейшая поисковая система российского Интернет, запущена в1996 году, на сегодня- вторая о популярности с обращением более25 миллионов посетителей в месяц. Помимо поисковой системы, сегодня Рамблер- один из крупнейших порталов русскоязычной частиИнтернета с большим набором широко известных сервисов, таких как каталог Рамблер, Рамблер-почта, Рамблер-ICQ или Рамблер-ТВ. По сути сегодня Рамблер- больше, чем просто поисковаясистема и набор сервисов, это крупная медиагрупа. Поисковая машина"Рамблер" начала работув октябре1996 года, на стартовом этапе содержала всего100 тысяч документов. "Рамблер" небыл первой отечественной поисковой системой, однако в первый год своего существования(когда весь русский веб с приемлемой степенью правдоподобия индексировался"Рамблером", "Апортом", "Русской поисковой машиной", а также шведской и калифорнийскойAltaVista) вынес основной груз поисковых запросов. Вторая версия"Рамблера" начала разрабатыватьсялетом 2000 года. В неебыли введены функции, давно уже имевшиеся в конкурирующих системах. Она учитываеткоординаты слов, обучена строгой и нечеткой морфологии, связывает поиск с каталогом, вкачестве которого используетсяTop100 (http://top100.rambler.ru/), группирует результаты поиска по сайтам, ищет по числам. Достаточно удачная архитектура продукта позволяет"Рамблер" иметь для поисковика количество серверов в2 раза меньшее, чем у"Яндекса", и в3 разаменьшее, чем у"Апорта".

Апорт

Апорт– третья по популярности на сегодня поисковая система с обращением более16 миллионов посетителей в месяц. Апорт позволяет пользователям осуществлять однотекстовыйпоискдокументовc учетом морфологии русского языка в запросах. Поисковая система построена наосновании новейших достижений в области информационного поиска и использует уникальныеалгоритмы сортировки найденных результатов. Разнообразные специализированные поиски(Знакомства, Товары, Новости, Рефераты, MP3 и др.) дают пользователям дополнительныевозможности находить различную информацию в Сети. В поисковую машину интегрирован одиниз крупнейших в Русскоязычной части Интернет каталогов Интернет-ресурсов "Апорт-каталог".

Поисковая машина"Апорт" была впервые продемонстрирована в феврале1996 года на пресс-конференции"Агамы" по поводу открытия"Русского клуба". Тогда она искала только по сайтуrussia.agama.com. Потом она начала искать по четырем, потом по шести серверам. Короче, деньрождения и фактический старт системы сильно"размазались" по времени, а официальнаяпрезентация"Апорта" состоялась только11 ноября1997 года. К тому времени в его базе был проиндексирован первый миллион документов, расположенных на10 тысячах серверов.

Создателем системы выступила компания"Агама" - разработчик программного обеспечения для платформыWindows, главным из которых являлся корректор орфографии"Пропись".

Лингвистические разработки"Агамы" использовались при создании поисковой машины, вкоторой, скажем, в отличие от"Рамблер", изначально учитывалась морфология слов иосуществлялась по желанию клиента проверка орфографии запроса.

Важнейшими свойствами первой версии"Апорта" являлся перевод запроса и результатов поискана английский язык и обратно, а также реконструкция всех проиндексированных страниц изсобственной базы(что означает возможность просмотра страниц, уже несуществующих воригинале).

«Апорт 2000» стал первой российской поисковой машиной, практически реализовавший двебазовых технологии американской поисковой машиныGoogle. Первая– учет"ранга страницы" (PageRank), который характеризует ее популярность(вычисляется о количеству ссылок наресурс из внешнего Интернета: вес ссылки с опулярного сайта выше, чем вес ссылки с менее популярного; ссылки, включающие слова запроса, имеют больший вес, чем, скажем, слово"здесь"). Вторая- обработка запроса, ориентируясь наHTML-код страницы. В"Апорт2000" учитывается также вхождение слов запроса вURL. Среди недокументированных особенностей- больший приоритет сайтам, получившим высшую и элитную лигу в каталогеAtRus.

Можно отметить и то, что"Апорт" первым устроил поиск по новостным лентам(какие быложные сведения о приоритете"Яндекса" в этом сервисе не распускал в свое времяInternet.ru). И, наконец, еще одно первенство"Апорта" - использование платной нулевой строки в выдаче(кстати, "Апорт" первым среди наших поисковиков начал покупать такой сервис уAltaVista, которая за небольшую плату выдавала его ссылку первой при запросе"RussianSearch"). Однако в"Апорте" нельзя купить не нулевое, а просто более высокое место для своего сайта в результатах поиска. Пользователи"Апорта" (в отличие завсегдатаев"Яндекса") мало пользуютсярасширенным поиском(на8000 загрузок простой страницы приходится300 вызовов страницы"Расширенный поиск").

Организация масштабируемости в архитектуре"Апорт2000" такова, что можно дробить поисковую базу"Апорта" на несколько отдельных баз, каждый маленький"Апорт" работает насвоем компьютере. "Апорт2000" считает, что весь Интернет оделен на фрагменты. После проведения поиска по этим фрагментам, пользователю интегрируется и выдается общий ответ.Добавлять новые маленькие"апортики" можно путем не очень сложной процедуры. В случаяхаварий отдельных машин выдаются несколько отличные от штатных интегральные результаты, что мы можем время от времени наблюдать.

Mail.ru

Национальная почтовая службаMail.ru – это не только поисковая система но и один изкрупнейших порталов российского Интернета. Ежедневная аудиторияMail.ru – более5 миллионов пользователей. Общее число регистраций со дня основания около 60 миллионов.

Mail.ru - самый быстроразвивающийся российский Интернет-ресурс. Через почтовые ящикиMail.ru ежедневно проходит более25 миллионов писем. Mail.ru занимает лидирующую позициюсреди бесплатных почтовых сервисов, предоставляя своим пользователям почтовый ящикнеограниченного размера с защитой от спама и вирусов, переводчиком, проверкой правописания, архивом для хранения фотографий и многое другое.

В1998-м году программисты, работающие в питерском офисе американской софтвернойкомпанииDataArt, создали новое ПО для почтового веб-сервера, которое в дальнейшемпредполагалось продавать западным компаниям. Чтобы протестировать сервис, его временновыложили в открытый доступ для российских пользователей, а сервис вдруг стал стремительно набирать популярность.

20 февраля2001 года произошло слияние двух крупных игроков российского Интернет-рынка, компанийPort.ru иnetBridgeпод брендомPort.ru. В результате объединения родилась компания, которая сразу заняла лидирующие позиции среди российских Интернет– холдингов по долерынка и охвату аудитории.

Первоочередная задача любой поисковой системы– доставлять людям именно ту информацию, которую они ищут.

Основные характеристики поисковых систем:

1. Полнота

2. Точность

3. Актуальность

4. Скорость поиска

5. Наглядность

В состав поисковой системы входят компоненты:

1. Модуль индексирования

2. База данных

3. Поисковый сервер

Подводя итог можно сказать что, как правило, несмотря на обилие поисковых систем, пользователь предпочитает обращаться к услугам лишь одной– двух из них(точно также как при обилии газет или новостных сайтов мы регулярно просматриваем лишь некоторые, привычные и любимые). Самой популярной поисковой системой в мире являетсяGoogle. Но, по оценкам аналитиков, на просторах Рунета чаше используется Яндекс.


Поделиться с друзьями:

История развития пистолетов-пулеметов: Предпосылкой для возникновения пистолетов-пулеметов послужила давняя тенденция тяготения винтовок...

Наброски и зарисовки растений, плодов, цветов: Освоить конструктивное построение структуры дерева через зарисовки отдельных деревьев, группы деревьев...

Состав сооружений: решетки и песколовки: Решетки – это первое устройство в схеме очистных сооружений. Они представляют...

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.023 с.